実機データで通説を検証

「GPUは10〜20倍速い」はエッジでは嘘だった

ローカルLLMで“GPUはCPUより桁違いに速い”とよく言われます。自宅ラボの実機4機種（Raspberry Pi 5 / Jetson Orin Nano / Mac mini M4 / RTX 4060ノート）で測ったら、話はだいぶ違いました。

結論（先に）

エッジ/ノート級では GPUのLLM優位は最大でも約4.2倍（RTX 4060ノートの7B）。統合メモリのMac mini M4やJetsonでは1倍前後とほぼ差が出ず、VRAMを超える14Bでは逆に低下（×2.2）。さらに NPU(Hailo)はそもそもLLMを動かせません。「GPU=なんでも10〜20倍速い」という思い込みは、エッジでは通用しないというのが実測の結論です。

通説：「GPUはCPUの10〜20倍」

AIの文脈で「GPUはCPUより一桁・二桁速い」とよく言われます。学習(トレーニング)や、ハイエンドの単体GPU＋大型モデル＋バッチ処理では実際その通りです。でも、私たちが実際に使うエッジ機やノートPCで、ローカルLLMを1つ動かす場面ではどうでしょうか。手元の実機で測ってみました。

実測：GPU vs CPU（tok/s）

同一機内で num_gpu=0 によりCPU実行へ切替えて比較（Ollama / 同一プロンプト）。

デバイス（メモリ）	モデル	GPU	CPU	倍率
RTX 4060ノート専用VRAM	7B	52	13	×4.2
RTX 4060ノート専用VRAM	14B	13.9	6.4	×2.2 VRAM超過
Mac mini M4 統合	7B	22.4	15.6	×1.4
Jetson Orin Nano 統合	2B	7.0	11.3	×0.6

全機種・全サイズの数値はエッジAI実機ベンチ大全に掲載。

なぜ差が小さいのか：メモリ帯域律速

鍵はメモリ構成です。LLMの1トークン生成は、巨大な重みをメモリから読み出す作業が支配的で、計算力より「メモリ帯域」がボトルネックになります（メモリ帯域律速）。

専用VRAM(GDDR6)のdGPU（RTX 4060）：CPUより広帯域な専用メモリを持つので、GPUの優位（〜4.2倍）が出る。
統合メモリのSoC（Mac M4 / Jetson）：CPUとGPUが同じメモリ帯域を共有。GPUにしても帯域は増えないので、差は1倍前後にとどまる。

落とし穴①：VRAMを超えると逆に遅くなる

RTX 4060(VRAM 8GB)は7Bで×4.2だが、14B(約9GB)はVRAMに収まらずCPUへ溢れ、×2.2に低下。「大きいモデルほどGPUが有利」はVRAMの範囲内までの話。

落とし穴②：「NPUを積めばLLMも速い」は早合点

汎用のOllama/llama.cppはHailoのNPUに非対応でCPU実行（Pi 5で約11 tok/s）。Hailo公式のGenAI専用ツールhailo-ollamaならNPUでLLMも動くが、実測ではLlama3.2 1BはCPUより約11%速い一方Qwen2.5 1.5BはCPUの方が約63%速い。40 TOPSという公称値だけでは判断できない。Hailo-10Hの疑いようのない真価はYOLOv8mで約76 FPSのビジョン側。

図解：同じ「LLMに質問する」でも、ツールで行き先が変わる

💬 LLMへの質問

（Raspberry Pi 5 + AI HAT+2）

汎用ツール

Ollama / llama.cpp（GGUF）

🖥️ CPU実行

NPU（Hailo-10H）は使われない

Hailo公式ツール

hailo-ollama

🧠 Hailo-10H NPU実行

実測: モデル次第でCPUより速い/遅い

「Hailo＝ビジョン専用でLLMは動かせない」は汎用ツール経由の場合の話。 Hailo公式のGenAI専用ツールを使えば、Hailo-10H(AI HAT+2)限定でNPU上のLLM推論もできる。

じゃあ、どう選ぶ？

ローカルLLM(生成)：大VRAMのGPU or 大容量ユニファイドメモリ機。エッジなら「絶対速度」と「載るVRAM/RAM」で選ぶ（倍率より実tok/s）。
ビジョン(検出・分類・姿勢)を24時間・低電力で：NPU(Hailo等)。LLMは別途CPU/クラウド。
カタログ値で選ばない：TOPSやTGPは実機と乖離（例：RTX4060ノートの実TGPは公称115Wでなく95W）。タスク別の実測で。

よくある質問

ローカルLLMでGPUはCPUの何倍速いですか？

実機では『専用VRAMを持つGPU』で最大約4.2倍（RTX 4060ノート・7B）。統合メモリのMac mini M4は1.1〜1.7倍、Jetson Orin Nanoはほぼ等倍でした。よく言われる10〜20倍は、ハイエンドの単体GPU(RTX4090/A100級)＋大型モデル＋バッチ処理など条件が揃った場合の話で、エッジ/ノートでは当てはまりません。

なぜエッジではGPUの差が小さいのですか？

単発のLLM推論はメモリ帯域律速（演算より、重みをメモリから読む速度が支配的）だからです。統合メモリのSoC(Mac/Jetson)ではCPUとGPUが同じメモリ帯域を共有するため、GPUにしても速くなりにくい。専用VRAM(GDDR6)を持つdGPUだけが帯域の優位を活かせます。

大きいモデルほどGPUが有利では？

VRAMに収まる範囲ではその傾向ですが、超えると逆転します。RTX 4060(VRAM 8GB)は7Bで×4.2でしたが、14B(約9GB)はVRAMに収まらずCPUへ溢れ(hybrid)、×2.2に低下しました。消費者GPUは“VRAM上限”が効きます。

NPU(Hailoなど)を積めばローカルLLMが速くなりますか？

単純にそうとは言えません。汎用のOllama/llama.cpp（GGUF形式）はHailoのNPUに対応しておらずCPU実行になります（Pi 5で約11 tok/s）。Hailo-10H(AI HAT+2)限定でHailo公式のGenAI専用ツール『hailo-ollama』を使えばNPU上でLLMが動きますが、実測ではLlama3.2 1BはCPUより約11%速い一方、Qwen2.5 1.5BはCPUの方が約63%速く、『NPUを積めば速い』は成立しません。Hailo-10Hの疑いようのない真価はYOLOv8mで約76 FPSといったビジョン側です。

データ・関連

実測: 2026-06、エッジAIラボ自宅実機（Pi 5+Hailo-10H / Jetson Orin Nano Super / Mac mini M4 16GB / RTX 4060 Laptop + i7-13700H）。LLMはOllama /api/generate、NPUは hailortcli benchmark。値は版・量子化・入力で変動（要検証）。

あなたのタスクで「実際どれが速い？」を実機で

機種選定・実測の切り分けをご相談いただけます（契約適合の範囲で）。

相談する（Link Field）