「GPUは10〜20倍速い」はエッジでは嘘だった
ローカルLLMで“GPUはCPUより桁違いに速い”とよく言われます。自宅ラボの実機4機種(Raspberry Pi 5 / Jetson Orin Nano / Mac mini M4 / RTX 4060ノート)で測ったら、話はだいぶ違いました。
結論(先に)
エッジ/ノート級では GPUのLLM優位は最大でも約4.2倍(RTX 4060ノートの7B)。統合メモリのMac mini M4やJetsonでは1倍前後とほぼ差が出ず、VRAMを超える14Bでは逆に低下(×2.2)。 さらに NPU(Hailo)はそもそもLLMを動かせません。 「GPU=なんでも10〜20倍速い」という思い込みは、エッジでは通用しないというのが実測の結論です。
通説:「GPUはCPUの10〜20倍」
AIの文脈で「GPUはCPUより一桁・二桁速い」とよく言われます。学習(トレーニング)や、ハイエンドの単体GPU+大型モデル+バッチ処理では実際その通りです。 でも、私たちが実際に使うエッジ機やノートPCで、ローカルLLMを1つ動かす場面ではどうでしょうか。手元の実機で測ってみました。
実測:GPU vs CPU(tok/s)
同一機内で num_gpu=0 によりCPU実行へ切替えて比較(Ollama / 同一プロンプト)。
| デバイス(メモリ) | モデル | GPU | CPU | 倍率 |
|---|---|---|---|---|
| RTX 4060ノート 専用VRAM | 7B | 52 | 13 | ×4.2 |
| RTX 4060ノート 専用VRAM | 14B | 13.9 | 6.4 | ×2.2 VRAM超過 |
| Mac mini M4 統合 | 7B | 22.4 | 15.6 | ×1.4 |
| Jetson Orin Nano 統合 | 2B | 7.0 | 11.3 | ×0.6 |
全機種・全サイズの数値は エッジAI実機ベンチ大全 に掲載。
なぜ差が小さいのか:メモリ帯域律速
鍵はメモリ構成です。LLMの1トークン生成は、巨大な重みをメモリから読み出す作業が支配的で、計算力より「メモリ帯域」がボトルネックになります(メモリ帯域律速)。
- 専用VRAM(GDDR6)のdGPU(RTX 4060):CPUより広帯域な専用メモリを持つので、GPUの優位(〜4.2倍)が出る。
- 統合メモリのSoC(Mac M4 / Jetson):CPUとGPUが同じメモリ帯域を共有。GPUにしても帯域は増えないので、差は1倍前後にとどまる。
落とし穴①:VRAMを超えると逆に遅くなる
RTX 4060(VRAM 8GB)は7Bで×4.2だが、14B(約9GB)はVRAMに収まらずCPUへ溢れ、×2.2に低下。「大きいモデルほどGPUが有利」はVRAMの範囲内までの話。
落とし穴②:NPUはLLMを動かせない
「AI HAT(Hailo)を積めばLLMが速くなる」は誤解。HailoはYOLO等ビジョン専用。実測でPi 5のLLMはCPU実行(約11 tok/s)、Hailo-10HはYOLOv8mで約76 FPSとビジョン側で輝く。
じゃあ、どう選ぶ?
- ローカルLLM(生成):大VRAMのGPU or 大容量ユニファイドメモリ機。エッジなら「絶対速度」と「載るVRAM/RAM」で選ぶ(倍率より実tok/s)。
- ビジョン(検出・分類・姿勢)を24時間・低電力で:NPU(Hailo等)。LLMは別途CPU/クラウド。
- カタログ値で選ばない:TOPSやTGPは実機と乖離(例:RTX4060ノートの実TGPは公称115Wでなく95W)。タスク別の実測で。
よくある質問
ローカルLLMでGPUはCPUの何倍速いですか?
実機では『専用VRAMを持つGPU』で最大約4.2倍(RTX 4060ノート・7B)。統合メモリのMac mini M4は1.1〜1.7倍、Jetson Orin Nanoはほぼ等倍でした。よく言われる10〜20倍は、ハイエンドの単体GPU(RTX4090/A100級)+大型モデル+バッチ処理など条件が揃った場合の話で、エッジ/ノートでは当てはまりません。
なぜエッジではGPUの差が小さいのですか?
単発のLLM推論はメモリ帯域律速(演算より、重みをメモリから読む速度が支配的)だからです。統合メモリのSoC(Mac/Jetson)ではCPUとGPUが同じメモリ帯域を共有するため、GPUにしても速くなりにくい。専用VRAM(GDDR6)を持つdGPUだけが帯域の優位を活かせます。
大きいモデルほどGPUが有利では?
VRAMに収まる範囲ではその傾向ですが、超えると逆転します。RTX 4060(VRAM 8GB)は7Bで×4.2でしたが、14B(約9GB)はVRAMに収まらずCPUへ溢れ(hybrid)、×2.2に低下しました。消費者GPUは“VRAM上限”が効きます。
NPU(Hailoなど)を積めばローカルLLMが速くなりますか?
なりません。HailoはYOLO等のビジョンCNN専用で、GGUF形式のLLMは実行できません。実測でもPi 5のLLMはCPU(約11 tok/s)。Hailo-10Hの真価はYOLOv8mで約76 FPSといったビジョン側です。NPU=ビジョン高速・省電力、GPU/CPU=生成AI、と役割が違います。
データ・関連
実測: 2026-06、エッジAIラボ自宅実機(Pi 5+Hailo-10H / Jetson Orin Nano Super / Mac mini M4 16GB / RTX 4060 Laptop + i7-13700H)。LLMはOllama /api/generate、NPUは hailortcli benchmark。値は版・量子化・入力で変動(要検証)。