エッジAIラボ
エッジAIラボ
実機データで通説を検証

「GPUは10〜20倍速い」はエッジでは嘘だった

ローカルLLMで“GPUはCPUより桁違いに速い”とよく言われます。自宅ラボの実機4機種(Raspberry Pi 5 / Jetson Orin Nano / Mac mini M4 / RTX 4060ノート)で測ったら、話はだいぶ違いました。

結論(先に)

エッジ/ノート級では GPUのLLM優位は最大でも約4.2倍(RTX 4060ノートの7B)。統合メモリのMac mini M4やJetsonでは1倍前後とほぼ差が出ず、VRAMを超える14Bでは逆に低下(×2.2)。 さらに NPU(Hailo)はそもそもLLMを動かせません。 「GPU=なんでも10〜20倍速い」という思い込みは、エッジでは通用しないというのが実測の結論です。

通説:「GPUはCPUの10〜20倍」

AIの文脈で「GPUはCPUより一桁・二桁速い」とよく言われます。学習(トレーニング)や、ハイエンドの単体GPU+大型モデル+バッチ処理では実際その通りです。 でも、私たちが実際に使うエッジ機やノートPCで、ローカルLLMを1つ動かす場面ではどうでしょうか。手元の実機で測ってみました。

実測:GPU vs CPU(tok/s)

同一機内で num_gpu=0 によりCPU実行へ切替えて比較(Ollama / 同一プロンプト)。

デバイス(メモリ)モデルGPUCPU倍率
RTX 4060ノート
専用VRAM
7B5213×4.2
RTX 4060ノート
専用VRAM
14B13.96.4×2.2
VRAM超過
Mac mini M4
統合
7B22.415.6×1.4
Jetson Orin Nano
統合
2B7.011.3×0.6

全機種・全サイズの数値は エッジAI実機ベンチ大全 に掲載。

なぜ差が小さいのか:メモリ帯域律速

鍵はメモリ構成です。LLMの1トークン生成は、巨大な重みをメモリから読み出す作業が支配的で、計算力より「メモリ帯域」がボトルネックになります(メモリ帯域律速)。

  • 専用VRAM(GDDR6)のdGPU(RTX 4060):CPUより広帯域な専用メモリを持つので、GPUの優位(〜4.2倍)が出る。
  • 統合メモリのSoC(Mac M4 / Jetson):CPUとGPUが同じメモリ帯域を共有。GPUにしても帯域は増えないので、差は1倍前後にとどまる。

落とし穴①:VRAMを超えると逆に遅くなる

RTX 4060(VRAM 8GB)は7Bで×4.2だが、14B(約9GB)はVRAMに収まらずCPUへ溢れ、×2.2に低下。「大きいモデルほどGPUが有利」はVRAMの範囲内までの話。

落とし穴②:NPUはLLMを動かせない

「AI HAT(Hailo)を積めばLLMが速くなる」は誤解。HailoはYOLO等ビジョン専用。実測でPi 5のLLMはCPU実行(約11 tok/s)、Hailo-10HはYOLOv8mで約76 FPSとビジョン側で輝く。

じゃあ、どう選ぶ?

  • ローカルLLM(生成):大VRAMのGPU or 大容量ユニファイドメモリ機。エッジなら「絶対速度」と「載るVRAM/RAM」で選ぶ(倍率より実tok/s)。
  • ビジョン(検出・分類・姿勢)を24時間・低電力で:NPU(Hailo等)。LLMは別途CPU/クラウド。
  • カタログ値で選ばない:TOPSやTGPは実機と乖離(例:RTX4060ノートの実TGPは公称115Wでなく95W)。タスク別の実測で。

よくある質問

ローカルLLMでGPUはCPUの何倍速いですか?

実機では『専用VRAMを持つGPU』で最大約4.2倍(RTX 4060ノート・7B)。統合メモリのMac mini M4は1.1〜1.7倍、Jetson Orin Nanoはほぼ等倍でした。よく言われる10〜20倍は、ハイエンドの単体GPU(RTX4090/A100級)+大型モデル+バッチ処理など条件が揃った場合の話で、エッジ/ノートでは当てはまりません。

なぜエッジではGPUの差が小さいのですか?

単発のLLM推論はメモリ帯域律速(演算より、重みをメモリから読む速度が支配的)だからです。統合メモリのSoC(Mac/Jetson)ではCPUとGPUが同じメモリ帯域を共有するため、GPUにしても速くなりにくい。専用VRAM(GDDR6)を持つdGPUだけが帯域の優位を活かせます。

大きいモデルほどGPUが有利では?

VRAMに収まる範囲ではその傾向ですが、超えると逆転します。RTX 4060(VRAM 8GB)は7Bで×4.2でしたが、14B(約9GB)はVRAMに収まらずCPUへ溢れ(hybrid)、×2.2に低下しました。消費者GPUは“VRAM上限”が効きます。

NPU(Hailoなど)を積めばローカルLLMが速くなりますか?

なりません。HailoはYOLO等のビジョンCNN専用で、GGUF形式のLLMは実行できません。実測でもPi 5のLLMはCPU(約11 tok/s)。Hailo-10Hの真価はYOLOv8mで約76 FPSといったビジョン側です。NPU=ビジョン高速・省電力、GPU/CPU=生成AI、と役割が違います。

データ・関連

実測: 2026-06、エッジAIラボ自宅実機(Pi 5+Hailo-10H / Jetson Orin Nano Super / Mac mini M4 16GB / RTX 4060 Laptop + i7-13700H)。LLMはOllama /api/generate、NPUは hailortcli benchmark。値は版・量子化・入力で変動(要検証)。

あなたのタスクで「実際どれが速い?」を実機で

機種選定・実測の切り分けをご相談いただけます(契約適合の範囲で)。

相談する(Link Field)