オススメ機能: お気に入り; 記事履歴; ランキング

記事検索
ゲームタイトル/メーカー名検索
詳細な検索へ

ハードウェア: レビュー; テストレポート; インタビュー; ムービー; ドライバ; ベンチマークレギュレーション

AC

アナログ

▼その他 PSV 3DS

Mali，Immortalis

Arm（旧称：ARM）

Mali，Immortalis

ニュース（35）
特集（1）
ムービー（2）

お気に入りタイトル/ワード

タイトル/ワード名（記事数）

最近記事を読んだタイトル/ワード

タイトル/ワード名（記事数）

週刊連載

Features

発売スケジュール

LINEで4Gamerアカウントを登録

Arm，ミドルクラスおよびエントリー市場向けの新GPU IPコア「Mali-G52」「Mali-G31」を発表

特集記事一覧

注目のレビュー

注目のムービー

問い合わせ

メディアパートナー

トップ>HARDWARE>GPU>Mali

2018/03/08 00:00

ニュース

Arm，ミドルクラスおよびエントリー市場向けの新GPU IPコア「Mali-G52」「Mali-G31」を発表

ライター：大原雄介

ステージで書の書かれた巻物を披露するArm幹部。なお，言葉と意味についての説明はなかった

　中国時間2018年3月6日，Armは，中国・北京で開催した報道関係者向けイベントで，ミドルクラス市場向けスマートフォンをターゲットとする新ブランド「Mali Multimedia Suite」を発表した。これは，GPU IPコアやディスプレイ出力を担う「ディスプレイプロセッサ」などからなるブランドで，以下の4製品が含まれるという。

GPU IPコア「Mali-G52」「Mali-G31」
ディスプレイプロセッサ「Mali-D51」
ビデオプロセッサ「Mali-V52」

　これらのうち，ゲーマーにとって重要なのは，GPU IPコアの2製品である。Mali-G31は，Armの既存GPU IPコアでも採用されている「Bifrost」（バイフロストまたはビフロスト）アーキテクチャを採用したローエンド向けGPUとのことだが，メインストリーム（ミドルクラス）向けに位置付けられるMali-G52は，新しい第2世代Bifrostアーキテクチャを採用するという点がポイントだ。
　そこで本稿では，Mali-G52とMali-G31について少し詳しく紹介したい。

ハイエンドからエントリーまでBifrostアーキテクチャで統一

　ArmがMali Multimedia Suiteを発表した背景には，メインストリーム市場向けスマートフォンに求められる要求が，次第に高くなってきていて，従来のプレミアム（ハイエンド）市場向けスマートフォンに近づいてきたということがある。

2017年時点で，10億台近いスマートフォンが中国内外で利用されており，このほとんどがいわゆるメインストリーム市場向け端末であるという

メインストリーム市場向けスマートフォンに求められている要素。ゲームは分かりやすい例だろう

　具体的には，グラフィックスのリッチなゲームやMachine Learning（機械学習），Mixed Reality（MR，複合現実）用途でのニーズが高まっているそうだ。

機械学習を利用したアプリケーションの例（左）。写真で対象物を撮影すると，その情報を検索して表示するというもの。右のスライドは，英国でVRやAR，MR関連技術を手がけるVirtual Artsの「Art XR」をスマートフォン向けアプリケーションに実装した例を示したものだ

　Armは以前から，「Utgard」（ウトガルド）や「Midgard」（ミッドガルド）というSIMDベースのアーキテクチャに基づくGPUを提供していた。それに対して，現行世代のBifrostは，スカラISA（命令セット）ベースのGPUとなる。UtgardやMidgardは事実上終息しており，GPU IPとしての提供は「リクエストがあれば行う」（Arm担当者）そうだが，推奨はしていないそうだ。

Armの主要なGPUアーキテクチャ別ロードマップ。現在，新製品に採用しているのはBifrostのみ。スライドの前にいる人物は，詳細の説明を担当したArmの**Anand Patel**氏(Director of Product Management，Client Business Line，Arm)

　市場セグメント別に，ArmのGPUラインナップを見てみると，ハイエンド市場向けの最新モデルには，COMPUTEX 2017で発表となったBifrostアーキテクチャ世代の「Mali-G72」があり，今回発表のMali-G52は，Bifrost世代のメインストリーム市場向けGPU IPコアとなる「Mali-G51」の後継に位置付けられている。
　また，市場セグメント別で一番下に当たるUltra Efficient（エントリー）市場向けは，これまでUtgardベースのGPUを提供し続けていたが，ようやくBifrostベースのMali-G31に置き換えられることになった。

市場セグメント別に分けたArmのGPUラインナップ。緑色のGPUが，今回発表の新製品だ

処理スレッド数の倍増で性能を向上

　そのMali-G51と比べて，Mali-G52は，エリアサイズ比の処理性能^※は30％，消費電力あたりの性能は15％改善したとする。

※半導体ダイに占めるGPUコアの面積が同等の場合，処理性能はどれだけ違うかの比較

Mali-G51比で，Mali-G52はどれくらい性能が向上したのかを示したスライド。エリアサイズ比で30％，電力当たりでは15％の向上を果たしたという。「ML improvements」は機械学習処理の性能を比較したものだが，ここは後段で詳しく説明したい

　Armは，Mali-G52における性能向上を，どのようにして実現したかも説明した。
　その1つが，演算ユニット「Execution Engine」1基あたりの処理スレッド数を倍増したこと。この結果として，Execution Engine 1基あたりのエリアサイズは22％増となったが，性能は2倍となったので，エリア効率でいえば64％ほど改善した計算になる。
　もちろん，実際はここまで単純に効率が上がるわけではない。それでも30％ほどは改善できたというわけだ。

Mali-G52のブロック図と，Mali-G51と比較したExecution Engineの改良点。なお，Int 8（8bit整数演算）の処理はSIMD処理となる

Bifrostはスカラ演算ベースのGPUなので，実際には，同時に処理できるスレッド数が4から8に増えた形になる。同時に8スレッドを処理できるので，今度は3サイクルで8ピクセル分の処理ができる計算だ

　Mali-G52で面白いのは，この性能向上を，あまりリソースを増やすことなく実現したことにある。
　Execution Engine自体はスレッド数（※Armのスライドでは，Laneと表記）が倍増するので，面積は単純に倍増してしまう。詳しい説明はなかったが，Texture Unitも“Dual”と書かれているので，倍増しているのだろう。ただ，それ以外のところは，数を2倍にするのではなく，動作速度を2倍にすることで辻褄を合わせた格好だ。

Mali-G52のシェーダコアとその周辺の構造を示したスライド。Texture Unitが「Dual Texture Unit」となっている点に注目。厳密に言えば，Load/Storeユニットも倍速という訳にはいかないと思うのだが，そのあたりの詳細は明らかになっていない

　なぜArmは，このような構造を採用したのか。メインストリーム市場向けGPUは，ハイエンド市場向けに比べて部品の価格に対する要求が厳しいので，ダイサイズをぎりぎりまで抑えたかったのだと，Armは説明していた。つまり倍速化によって多少消費電力が増えても，ダイ面積を抑えるほうがトータルコストの削減につながると判断したようだ。

価格に厳しいメインストリーム市場向けにAI処理をGPUで実現可能に

　処理スレッド数の倍増と同じ理由で，Mali-G52に追加されたのが，Int 8（8bit整数演算）のサポートである。ハイエンド市場向けSoC（System-on-a-Chip）の場合，HiSilicon Technologies製SoC「Kirin 970」におけるAI処理機構「Neural-network Processing Unit」のように，AI処理専用コプロセッサを追加するのは，それほど難しくない（関連記事）。SoCの価格が上がっても，端末メーカーに許容されやすいからだ。
　ところがメインストリーム市場向けSoCの場合，AIコプロセッサを追加するほどの費用を受け入れられない場合が多く，そのためGPUにAI処理機能を持たせる必要があると，Armは判断しているということだった。

　そういった事情を踏まえて，どういう実装になったのかというと，Execution Engineにおける各スレッドの処理で，FP32（単精度浮動小数点演算）やInt 32（32bit整数演算）以外に，Int 8×4という構成を1クロックで処理できるようにしたという。この結果，Int 32でしか処理できないMali-G51に比べて，Mali-G51は，機械学習処理において最大3.6倍もの性能向上が実現できたとArmは主張している。

機械学習処理におけるMali-G52とMali-G51の性能比較グラフ。機械学習というか，CNN（Convolutional Neural Network，畳み込みニューラルネットワーク）の場合，8bit精度があれば事実上十分というのが現時点での要求なので理論上は4倍速になるはず。SIMDフォーマットへの変換に伴うオーバーヘッドが多少はあるということだろう

　ちなみに，このInt 8での処理は，Armが提供するソフトウェアフレームワーク「Arm NN」（関連リンク）で，そのままサポートしているという話だ。このArm NNは，2018年2月に同社が発表した機械学習向けプロセッサ「Arm ML」（関連リンク）もサポートしているそうで，アプリケーションからは，どちらのプロセッサでも同じように扱えることになる。

　話を戻そう。Execution Engineの処理スレッド数倍増とInt 8でのSIMD演算のサポートが，第2世代Bifrostアーキテクチャの特徴だ。ただ，SoCに統合するGPU IPコアの構成が同じであれば，メインストリーム市場向けSoCのグラフィックス性能が，現在のハイエンド市場向けSoCを上回ってしまう可能性も出てくる。
　それを考慮してか，Mali-G52は，最大4コアまでに制限されているそうだ。ハイエンド市場向けのMali-G71やMali-G72は最大32コアまでサポートしているので，最大構成だと，

32（コア）×3（Execution Engine）×4（スレッド）＝384スレッド

を同時に処理できる。3サイクル（＝3クロック）で1ピクセルの処理が可能なので，128ピクセル/クロックの処理が可能なわけだ。
　これに対してMali-G52は，

4（コア）×3（Execution Engine）×8（スレッド）＝96スレッド

で，最大でも32ピクセル/クロックに留まる。
　もっともMali-G51は最大3コアまでの構成なので，

3（コア）×3（Execution Engine）×4（スレッド）＝36スレッド

で12ピクセル/クロックとなるので，Mali-G52は，大幅に性能が向上したわけだ。

　余談になるが，Mali-G51は，ターゲットとする製造プロセスが，TSMCの28nmプロセス「28HPM」あたりだった。それに対してMali-G52では，TSMCの16nmプロセス「16FF＋」「16FFC」や，12nmプロセス「12FFC」に切り替わっている。これは，メインストリーム市場向けSoCが，これらのプロセスを利用するようになったことを反映したものだ。
　そのため，実際にはMali-G51を搭載するSoCよりも，Mali-G52を搭載するSoCのほうが，省電力化や高速化を実現できる。実際，ArmのWebサイトにある情報では，Mali-G51をクロック650MHzで動作させた場合のピクセルスループットが3.9Gピクセル/secとなっている（関連リンク）のに対して，Mali-G52は850MHz動作で6.8Gピクセル/secと，74％も向上しているのがその一例と言えよう（関連リンク）。
　ただ，理論上のピクセル/クロックにおける性能差に対して，スループットの性能差が低い理由や，Armが挙げたエリアサイズ比での性能差が30％と控えめな数字となっている理由は，今のところ分からない。

エントリー市場向け端末にVulkanをもたらすMali-G31

　さて，Mali-G52と同時に発表となったMali-G31であるが，こちらは第1世代のBifrostアーキテクチャを採用しているという。Execution Engineは最大2つで，GPUコア数は1コアのみとなる。

前世代と比べたMali-G31の性能を示したスライド。半導体ダイに占める面積は20％小さくなり，エリアサイズ比で性能は20％向上。Better UI Performanceというのは，ゲーム用途に使うには厳しいが，ユーザーインタフェースの操作程度であれば，目に見えて改善が分かるという意味と思われる

Mali-G31は，OpenGL ES 3.2とVulkanに対応した最小サイズのGPUであるという。余談だが，「スマートウォッチに入れられるレベルになったのか」と質問したところ，「ハイエンド向けなら可能性がある」との答えが返ってきた

　Mali-G31の特徴は，性能面の向上よりも，OpenGL ES 3.2とVulkanのサポートにあるそうだ。UtgardアーキテクチャベースのMaliシリーズでは，これらのAPIを利用できなかったのだが，性能面はともかくとして，こうしたAPIを使うアプリケーションがエントリー市場向けスマートフォンでも動作するようになるという意味では，アプリケーションのユーザーインタフェースやグラフィックスを底上げする効果が期待できるだろう。

Mali-G31のブロック図と特徴。エントリー市場向けスマートフォンだけでなく，低価格なデジタルテレビ向けなどにも広く使うことを想定しており，それもあってユーザーインタフェースの快適さをアピールしていたのだろう。またテレビ用途の場合，上位機種と下位機種でアプリケーションは共通化したいだろうから，OpenGL ES 3.2やVulkanのサポートも欠かせなかったものと思われる

　Mali-G31ではAI処理など考慮していないし，性能も前世代と比べて，それほど向上するわけではない。しかし，その代わりに「Arm Frame Buffer Compression」（AFBC）という機能を，GPUコア内に搭載したのが特徴であるという。従来のエントリー市場向けGPU IPコアでは，これをGPUに内蔵できず，外側に置いていたのだそうだ。
　Mali-G31のターゲットプロセスは，前世代から引き続いて28HPMで，スループットは1.3Gピクセル/secとなっている。前世代のエントリー市場向けGPU IPコアである「Mali-470」の場合，28HPMでスループットは650Mピクセル/sec程度となっていたので，3倍ほど高速化されている計算だ。リッチなグラフィックスのゲームをするのは無理だろうが，カジュアルゲーム程度であれば快適に動作しそうである。