エッジでGPUはCPUより何倍速いですか？

モデルとメモリ構成によります。専用VRAMを持つRTX 4060ノートでは 0.5Bで約2.8倍、7Bで約4.2倍。一方、統合メモリのMac mini M4は1.1〜1.7倍、Jetson Orin Nanoはほぼ等倍（≦1倍）でした。よく言われる『10〜20倍』はエッジ/ノート級では観測されません（単発LLM推論がメモリ帯域律速のため）。

Hailoのような NPU でローカルLLMは速くなりますか？

モデル次第で、単純に『速くなる』とは言えません。Ollama等の汎用ツールはGGUF形式のためNPUを使えずCPU実行になります(Pi 5で約11 tok/s)。Hailo-10H(AI HAT+2)限定でHailo公式のGenAI専用ツール『hailo-ollama』を使えばNPU上でLLMが動きますが、実測ではLlama3.2 1BはNPUがCPUより約11%速い一方、Qwen2.5 1.5BはCPUの方が約63%速いという結果でした（下記②b）。NPUの疑いようのない真価はYOLOv8mで約76 FPSといったビジョン推論側です。なお旧型のHailo-8LにはこのGenAI経路自体がなく、ビジョン専用のままです。

カタログのTOPSやTGPは当てになりますか？

目安にはなりますが実機とは乖離します。例えばRTX 4060 Laptopは公称TGP最大115Wですが、実機(薄型ノート)は最大95W・既定60W設定で、カタログ上限は出ませんでした。逆にGPUクロックは公称ブースト2370MHzに対し負荷時約2600MHzと上回りました。最終判断は『公称TOPS』より『タスク別の実測(tok/s・FPS・電力)』が確実です。

日本語のローカルLLMを tok/s で選んで大丈夫ですか？

tok/sは日本語では誤解を生みます。同じqwen2.5:7bを同一機で実測すると、英語は約287文字/秒（5.5文字/トークン）に対し日本語は約81文字/秒（1.5文字/トークン）。同じ52 tok/sでも日本語ユーザーが見る文字数は約1/3.5です。日本語では『char/s（1秒あたりの文字数）』で比較してください（本ページ ④ に各機の実測値を掲載）。

測定方法は？再現できますか？

LLMはOllamaのHTTP API(/api/generate, stream=false, num_predict=128, 同一プロンプト)で、CPU側はoptions.num_gpu=0でGPUを無効化して比較。NPUはhailortcli benchmark(HailoRT 5.1.1, Hailo-10H用にコンパイルした.hef)で計測。値はモデル・量子化・入力サイズ・前後処理で変動します。英語寄りプロンプトのtok/sのため、日本語はchar/sでの再計測を予定しています。

実機一次データ・定点観測

エッジAI実機ベンチ大全（β）

自宅ラボの実機（Pi 5＋Hailo-10H / Jetson Orin Nano / Mac mini M4 / RTX 4060ノート）を同一手法で実測。LLMの tok/s（GPU vs CPU・モデルサイズ別）、Hailo-10H の YOLO FPS、そして「公称 vs 実測」の乖離を、測定メソドロジーごと公開します。

この実測でわかったこと（要点）

1.「GPUは10〜20倍速い」はエッジでは出ない。最大でRTX 4060ノートの7Bで約4.2倍。
2.GPU優位の決め手はメモリ構成。専用VRAM(GDDR6)は効くが、統合メモリ(Mac/Jetson)はCPUと帯域共有でほぼ効かない。
3.消費者GPUはVRAMを超えると逆に低下（RTX 4060の14Bで×2.2）。
4.NPU(Hailo-10H)の真価はYOLOで70+ FPS／分類で300+ FPSのビジョン側。汎用OllamaはNPU非対応でCPU実行だが、Hailo公式ツール経由ならLLMもNPUで動く（速さはモデル次第、下記②b）。
5.カタログ値は実機と乖離（TGP公称115W→実機95W等）。タスク別の実測で選ぶべき。

測定メソドロジー（透明性）

競合が複製しにくい一次データほど引用されます。手法を全部公開します（追試歓迎）。

LLM: Ollama /api/generate（stream=false, num_predict=128, 同一プロンプト）。tok/s = eval_count ÷ (eval_duration/1e9)。CPU値は options.num_gpu=0 でGPUを無効化。
NPU（ビジョン）: hailortcli benchmark（HailoRT 5.1.1、Hailo-10H用にコンパイルした .hef）。
NPU（GenAI）: hailo-ollama（HailoRT 5.3.0）の /api/chat。CPU対照は同一Pi5上の素のOllama。
電力/クロック: nvidia-smi を生成中に並行サンプリング。
機材: RTX 4060 Laptop + i7-13700H / Mac mini M4 16GB / Jetson Orin Nano Super / Raspberry Pi 5 + Hailo-10H。
注意: 値は版・量子化・入力サイズ・前後処理で変動。tok/s は英語寄り基準のため、日本語は char/s で別途実測（下記 ④）。

① LLM 実測：GPU vs CPU（tok/s・モデルサイズ別）

同一機内で num_gpu=0 によりCPU実行に切り替えて比較。倍率＝GPU÷CPU。

デバイス	メモリ	モデル	GPU tok/s	CPU tok/s	倍率
ノートPC RTX 4060	専用VRAM(GDDR6)	0.5B	320	115	×2.8
ノートPC RTX 4060	専用VRAM(GDDR6)	3B	107	27	×4.0
ノートPC RTX 4060	専用VRAM(GDDR6)	7B	52	13	×4.2最大
ノートPC RTX 4060	専用VRAM(GDDR6)	14B	13.9	6.4	×2.2VRAM超過で低下
Mac mini M4	統合(LPDDR5)	0.5B	157	138	×1.1
Mac mini M4	統合(LPDDR5)	7B	22.4	15.6	×1.4
Mac mini M4	統合(LPDDR5)	14B	11.7	7.1	×1.7
Jetson Orin Nano	統合(LPDDR5)	0.8B	9.2	9.9	×0.9GPU≒CPU
Jetson Orin Nano	統合(LPDDR5)	2B	7.0	11.3	×0.6GPUが遅い
Raspberry Pi 5	GPUなし(CPU)	1.5B	—	11.4	—CPUのみ

② NPU 実測：Hailo-10H のビジョンFPS

40 TOPSの専用NPU（Raspberry Pi 5 + Hailo-10H）。真価はビジョン推論の高FPS・低電力（生成AIの実測は下記②b）。

モデル	タスク	実測FPS
YOLOv11m	物体検出	71
YOLOv8m	物体検出	76
YOLOv8s-pose	姿勢推定	157
ResNet-50	画像分類	308

②b NPU 実測：Hailo-10H (AI HAT+2) の生成AI(LLM)

2026-01発売のAI HAT+2はHailo-10H NPUにHailo公式のOllama互換サーバhailo-ollamaを組み合わせるとLLM推論が可能。同一Pi5上のCPU実行（素のOllama）と比較しました。結果はモデル次第で入れ替わり、「40 TOPSだから常に速い」は成立しません。

図解：同じ「LLMに質問する」でも、ツールで行き先が変わる

💬 LLMへの質問

（Raspberry Pi 5 + AI HAT+2）

汎用ツール

Ollama / llama.cpp（GGUF）

🖥️ CPU実行

NPU（Hailo-10H）は使われない

Hailo公式ツール

hailo-ollama

🧠 Hailo-10H NPU実行

実測: モデル次第でCPUより速い/遅い

「Hailo＝ビジョン専用でLLMは動かせない」は汎用ツール経由の場合の話。 Hailo公式のGenAI専用ツールを使えば、Hailo-10H(AI HAT+2)限定でNPU上のLLM推論もできる。

モデル	NPU (hailo-ollama) tok/s	CPU (素のOllama) tok/s	備考
Llama 3.2 1B	9.69	8.72	NPUが約11%速い
Qwen2.5 1.5B	7.23	11.76	CPUが約63%速い

Llama 3.2 1B

🧠 NPU

9.69

🖥️ CPU

8.72

Qwen2.5 1.5B

🧠 NPU

7.23

🖥️ CPU

11.76

実測: 2026-07、Raspberry Pi 5 + AI HAT+2（Hailo-10H・HailoRT 5.3.0・hailo-ollama 0.5.1）。/api/chat（同一プロンプト・num_predict=80）で1回ウォームアップ後に1回計測（複数回平均ではない）。Qwen2.5のNPU出力にごく軽微な文字化けを確認。公式パッケージ(hailo-gen-ai-model-zoo)にVLMモデルは含まれず、Hailoが謳うVLM対応はこの範囲では未確認。詳しいセットアップ手順はHailo-10Hレビューを参照。経験則（要検証・単発計測）。

③ 公称 vs 実測（RTX 4060 Laptop）

同じ「RTX 4060 Laptop」でも、OEMの電力設計で実性能は変わります。

項目	公称(NVIDIA)	実機実測
TGP（電力上限）	最大115W（35〜115W可変）	最大95W／既定60W
GPUブーストクロック	最大 2370MHz	負荷時約2600MHz（公称超）
消費電力	—	アイドル12.86W → LLM生成中ピーク約70W
AI性能	233 AI TOPS（INT8理論ピーク）	LLM 0.5B ≈ 320 tok/s（GPU）

④ 日本語 char/s — tok/s の落とし穴

日本語ユーザーが体感するのは「1秒あたり何文字出るか（char/s）」であって tok/s ではありません。そして日本語は同じ tok/s でも出る文字数が英語より大幅に少ない——これを実機で確認しました。

同一モデル・同一機・同じ tok/s でも、見える文字数は約1/3.5（RTX 4060 / qwen2.5:7B）

言語	tok/s	char/s	文字/トークン
英語	52	287	5.5
日本語	52	81	1.55

同じ「52 tok/s」でも、英語は約287文字/秒・日本語は約81文字/秒。日本語は1トークンが約1.5文字（英語は約5.5文字）なので、tok/s表記は日本語ユーザーにとって実速度を約3.5倍過大に見せます。

デバイス	モデル	tok/s	char/s（日本語）	文字/トークン
ノートPC RTX 4060 (GPU)	qwen2.5:0.5B	325	520	1.6
ノートPC RTX 4060 (GPU)	qwen2.5:7B	52	81	1.55
Mac mini M4 (Metal)	qwen2.5:0.5B	154	234	1.51
Mac mini M4 (Metal)	qwen2.5:7B	22.5	34	1.50
Jetson Orin Nano	qwen2.5:1.5B	35	56	1.58
Raspberry Pi 5 (CPU)	qwen2.5:1.5B	11	18	1.60

実用の目安：日本語の黙読は概ね 7〜10 文字/秒（経験則・要検証）。つまり Pi 5 の約18文字/秒でも「読む速さより速い」＝実用圏。ノートやMac（数十〜数百文字/秒）は待ち時間ほぼゼロ。日本語では char/s で見れば「どの機材が快適か」が正しく分かります。

⑤ 音声認識（Whisper）実測 — 実時間の何倍速か

27秒の日本語音声を transformers の Whisper（fp16）で文字起こしし、x実時間（音声長÷処理時間）とCER（文字誤り率）を実測（RTX A6000）。いずれも実時間の17〜35倍速、large-v3-turboは最速クラスかつ最精度でした。音声認識はLLM生成より軽く、エッジでも実用十分です。

Whisperモデル	処理時間	x実時間	RTF	CER(%)
whisper-base	0.79s	34.6×	0.029	5.5
whisper-small	1.57s	17.3×	0.058	7.9
whisper-large-v3-turbo	0.79s	34.4×	0.029	4.7

実測: 2026-06、RTX A6000・27.3秒の日本語音声（edge-tts合成）・transformers ASRパイプライン(fp16)・ウォームアップ後計測。x実時間＝音声長÷処理時間。 CERは1クリップ・クリーンな合成音声での参考値（実環境の雑音や長尺では変動・要検証）。再現: scripts/bench-whisper.py。

⑥ ローカルLLM横断 — 同サイズ帯で日本語が速い・きれいなのは？

同サイズ帯（7〜8B・Q4_K_M）の主要ファミリーを同一和文プロンプトでA6000実測。char/sは qwen2.5 ≒ llama3.1 ＞ mistral。注目は品質で、簡体字の混入は Qwen系を含め全モデルでゼロでした（→ 日本語純度を裏づけ）。出力の癖はモデルごとに異なります。

モデル	系統	char/s	tok/s	かな比率	癖
qwen2.5:7b	Alibaba	169	119	0.63	—
llama3.1:8b	Meta	162	113	0.64	Markdown多用
mistral:7b	Mistral	138	124	0.74	英語混じり

実測: 2026-06、RTX A6000・Ollama /api/generate（num_predict=256・同一和文プロンプト）。 thinking型（lfm2.5等）は思考を英語で出すため日本語char/s比較からは除外。値は版・量子化・プロンプトで変動（要検証）。再現: scripts/bench-quant-charsec.mjs。

⑦ VLM（画像理解）実測 — 画像を日本語で説明する速さと正確さ

1枚の写真を「日本語で説明して」とVLMに依頼し、A6000で応答時間を実測。Qwen2.5-VL は 3B/7B とも約1〜1.6秒で被写体を正確に同定（猫2匹・テレビのリモコン・ソファ）。一方極小のSmolVLM-256Mは指示を反復するだけで説明できず＝VLMはモデルサイズが品質の下限を決めます。

VLMモデル	応答時間	出力	結果（日本語説明）
Qwen2.5-VL-3B	0.93s	33字	✅ 正確（猫2匹・リモコン・ソファを同定）
Qwen2.5-VL-7B	1.61s	64字	✅ 正確・より詳細
SmolVLM-256M	1.74s	30字	❌ 指示を反復し説明できず（256Mは小さすぎ）

実測: 2026-06、RTX A6000・transformers image-text-to-text(fp16)・max_new_tokens=64・ウォームアップ後計測。応答時間は出力長で変動（モデルにより早期終了）。パブリック画像1枚での参考測定（要検証）。再現: scripts/bench-vlm.py。

測定機材と立ち位置

Raspberry Pi 5 + Hailo-10H (AI HAT+2)

ビジョンNPU（40 TOPS）＋GenAI

YOLO等を70+ FPS・低電力。汎用OllamaのLLMはCPU実行(約11 tok/s)だが、Hailo公式ツールhailo-ollama経由ならNPUでもLLMが動く（実測は伯仲〜CPU優位、下記②b）。

Jetson Orin Nano Super

ARM + CUDA

統合メモリで小型LLMはGPU優位が出にくい(≦1倍)。CUDA資産・産業定番。

Mac mini M4 (16GB)

Apple Silicon / Metal

統合メモリでLLM中速・省設定。14Bまでフル。GPU優位は1.1〜1.7倍と小。

ノートPC RTX 4060 Laptop

専用VRAM dGPU

小型LLM最速(0.5B 320 tok/s)。7Bで×4.2、14BはVRAM超過で×2.2に低下。

実測カルテ — GO/NO-GO判定の記録

上記のベンチとは別に、特定の業務課題（指差呼称の記録）を題材に「事前に決めた基準を満たすか」を検証した実測カルテです。判定基準・実測値・そこから言えないことまでを1本ずつ公開します。

NO-GO

① whisper-tinyの全文文字起こし

静音recall80%・雑音下25%で基準未達。暴走生成も実測

全基準クリア

② whisper-base＋WebGPU

recall100%・誤受理0%。WebGPUでp95を1.6秒に短縮

比較検証

③ 自作KWS vs whisper-base

18.6万パラメータで8ms推論も、未学習話者recallは40%

深掘り・関連

🔬 ハード比較ダッシュボード

TOPS・価格・電力・コスパで7デバイスを比較（実測コラム入り）

💡 「GPUは10〜20倍速い」はエッジでは嘘だった

本ベンチから見えた“意外な発見”を読み物に

🚫 CUDAなしでAIを動かす

CPU/ブラウザ/NPU/AMDの4つの道

⚡ Hailo-10Hレビュー

本ベンチで実測した40 TOPS NPUの詳説

本ベンチで使ったエッジAI機材

このページで実測したデバイス系統の購入リンクです（広告・アフィリエイトリンクを含みます）。

🧰 構成の目安（用途で選ぶ・全部を合算する必要はありません）

最安構成約¥35,000〜

Raspberry Pi 5 ＋ AI Camera（IMX500）。現場の一次検証・PoCに手頃。

安定構成約¥68,000〜

NVIDIA Jetson Orin Nano ＋ AI Camera（IMX500）。複数カメラ・高精度・連続稼働に対応。

価格は目安（変動あり）。下のカードから用途に合うものを選んでください（全点を揃える必要はありません）。

大型構成もっと大きなモデルを本格的に動かすなら（高性能ミニPC）

大きなモデルの生成・推論や複数モデルの常時稼働には、Pi/Jetsonより大容量メモリ・高性能CPU/GPUを積める高性能ミニPCが快適です。

大型エッジAI・ローカル用PC（GMKtec）を見る →

👑 まずこの1台

⚡高性能目安 ¥55,000

NVIDIA Jetson Orin Nano

最大67 TOPSのAI性能。複数カメラの同時処理や高精度モデルの実行に最適なエッジAIボード。

楽天で見る Amazonで見る

📷おすすめ目安 ¥13,000

Raspberry Pi AI Camera（IMX500）

Sony IMX500搭載のAI処理内蔵カメラ。カメラ側でAI推論を実行し、ホストの負荷が極めて低い。

楽天で見る Amazonで見る

🖥️定番目安 ¥22,000

Raspberry Pi 5

エッジAIの定番ボード。8GB RAMモデルでAI推論からカメラ制御まで幅広く対応。

楽天で見る Amazonで見る

🎥目安 ¥5,000

4K Webカメラ（AI対応）

高解像度のWebカメラでAI認識の精度が向上。オートフォーカス・広角対応モデルがおすすめ。

楽天で見る Amazonで見る

🧠GenAI対応目安 ¥20,000

Raspberry Pi AI HAT+2（Hailo-10H）

2026年1月発売の公式GenAIアドオン。40 TOPS・8GB専用オンボードRAM搭載。hailo-ollama経由でNPU上のLLM推論にも対応（実測はHailo-10Hレビュー参照）。

楽天で見る Amazonで見る

🧠高性能目安 ¥13,000

Hailo-8L AIアクセラレータ

13 TOPSのAI推論性能。Raspberry Pi 5のM.2スロットに装着してAI処理を高速化。

楽天で見る Amazonで見る

🔌目安 ¥13,000

Google Coral USB Accelerator

既存のPCやRaspberry PiにUSB接続するだけでAI推論を高速化。4 TOPSのEdge TPU搭載。

楽天で見る Amazonで見る

※ 上記リンクはアフィリエイトリンクです（購入で当サイトに収益が発生する場合があります）。価格は目安で、最新価格・在庫はリンク先でご確認ください。構成は用途の一例です。

適用範囲と要検証事項

tok/s は英語寄りプロンプト基準。日本語はトークンが約4倍で体感が変わるため、char/s での再計測が必要（経験則・要検証）。
モデル系統は各機の手持ちを使用（qwen2.5 / qwen3系）。倍率は各デバイス内のサイズ依存を見る目的で、機種間のtok/s絶対比較は同一モデルで再測すべき。
Jetsonの14Bはメモリ不足で未測定（8GB統合）。Mac miniの35B/26Bは16GB超過で実用外。
Hailo FPSは hailortcli benchmark のHW値。実アプリは前後処理・カメラI/Oでさらに下がる。
単発・バッチ1の推論。サーバ用途のバッチ処理ではGPU優位が拡大し得る。

業務での機種選定・実測のご相談

「自社タスクで実際どの構成が速い／安い／省電力か」を、実機ベンチで切り分けてご提案します。

相談する（Link Field）