エッジAI実機ベンチ大全(β)
自宅ラボの実機(Pi 5+Hailo-10H / Jetson Orin Nano / Mac mini M4 / RTX 4060ノート)を同一手法で実測。LLMの tok/s(GPU vs CPU・モデルサイズ別)、Hailo-10H の YOLO FPS、そして「公称 vs 実測」の乖離を、測定メソドロジーごと公開します。
この実測でわかったこと(要点)
- 1.「GPUは10〜20倍速い」はエッジでは出ない。最大でRTX 4060ノートの7Bで約4.2倍。
- 2.GPU優位の決め手はメモリ構成。専用VRAM(GDDR6)は効くが、統合メモリ(Mac/Jetson)はCPUと帯域共有でほぼ効かない。
- 3.消費者GPUはVRAMを超えると逆に低下(RTX 4060の14Bで×2.2)。
- 4.NPU(Hailo-10H)はLLMを動かせない。真価はYOLOで70+ FPS/分類で300+ FPSのビジョン側。
- 5.カタログ値は実機と乖離(TGP公称115W→実機95W等)。タスク別の実測で選ぶべき。
測定メソドロジー(透明性)
競合が複製しにくい一次データほど引用されます。手法を全部公開します(追試歓迎)。
- LLM: Ollama
/api/generate(stream=false,num_predict=128, 同一プロンプト)。tok/s =eval_count ÷ (eval_duration/1e9)。CPU値はoptions.num_gpu=0でGPUを無効化。 - NPU:
hailortcli benchmark(HailoRT 5.1.1、Hailo-10H用にコンパイルした.hef)。 - 電力/クロック:
nvidia-smiを生成中に並行サンプリング。 - 機材: RTX 4060 Laptop + i7-13700H / Mac mini M4 16GB / Jetson Orin Nano Super / Raspberry Pi 5 + Hailo-10H。
- 注意: 値は版・量子化・入力サイズ・前後処理で変動。tok/s は英語寄り基準のため、日本語は char/s で別途実測(下記 ④)。
① LLM 実測:GPU vs CPU(tok/s・モデルサイズ別)
同一機内で num_gpu=0 によりCPU実行に切り替えて比較。倍率=GPU÷CPU。
| デバイス | メモリ | モデル | GPU tok/s | CPU tok/s | 倍率 |
|---|---|---|---|---|---|
| ノートPC RTX 4060 | 専用VRAM(GDDR6) | 0.5B | 320 | 115 | ×2.8 |
| ノートPC RTX 4060 | 専用VRAM(GDDR6) | 3B | 107 | 27 | ×4.0 |
| ノートPC RTX 4060 | 専用VRAM(GDDR6) | 7B | 52 | 13 | ×4.2最大 |
| ノートPC RTX 4060 | 専用VRAM(GDDR6) | 14B | 13.9 | 6.4 | ×2.2VRAM超過で低下 |
| Mac mini M4 | 統合(LPDDR5) | 0.5B | 157 | 138 | ×1.1 |
| Mac mini M4 | 統合(LPDDR5) | 7B | 22.4 | 15.6 | ×1.4 |
| Mac mini M4 | 統合(LPDDR5) | 14B | 11.7 | 7.1 | ×1.7 |
| Jetson Orin Nano | 統合(LPDDR5) | 0.8B | 9.2 | 9.9 | ×0.9GPU≒CPU |
| Jetson Orin Nano | 統合(LPDDR5) | 2B | 7.0 | 11.3 | ×0.6GPUが遅い |
| Raspberry Pi 5 | GPUなし(CPU) | 1.5B | — | 11.4 | —CPUのみ |
② NPU 実測:Hailo-10H のビジョンFPS
40 TOPSの専用NPU(Raspberry Pi 5 + Hailo-10H)。LLMは動かせないが、ビジョン推論は高FPS・低電力。
| モデル | タスク | 実測FPS |
|---|---|---|
| YOLOv11m | 物体検出 | 71 |
| YOLOv8m | 物体検出 | 76 |
| YOLOv8s-pose | 姿勢推定 | 157 |
| ResNet-50 | 画像分類 | 308 |
③ 公称 vs 実測(RTX 4060 Laptop)
同じ「RTX 4060 Laptop」でも、OEMの電力設計で実性能は変わります。
| 項目 | 公称(NVIDIA) | 実機実測 |
|---|---|---|
| TGP(電力上限) | 最大115W(35〜115W可変) | 最大95W/既定60W |
| GPUブーストクロック | 最大 2370MHz | 負荷時 約2600MHz(公称超) |
| 消費電力 | — | アイドル12.86W → LLM生成中ピーク約70W |
| AI性能 | 233 AI TOPS(INT8理論ピーク) | LLM 0.5B ≈ 320 tok/s(GPU) |
④ 日本語 char/s — tok/s の落とし穴
日本語ユーザーが体感するのは「1秒あたり何文字出るか(char/s)」であって tok/s ではありません。 そして日本語は同じ tok/s でも出る文字数が英語より大幅に少ない——これを実機で確認しました。
同一モデル・同一機・同じ tok/s でも、見える文字数は約1/3.5(RTX 4060 / qwen2.5:7B)
| 言語 | tok/s | char/s | 文字/トークン |
|---|---|---|---|
| 英語 | 52 | 287 | 5.5 |
| 日本語 | 52 | 81 | 1.55 |
同じ「52 tok/s」でも、英語は約287文字/秒・日本語は約81文字/秒。日本語は1トークンが約1.5文字(英語は約5.5文字)なので、tok/s表記は日本語ユーザーにとって実速度を約3.5倍過大に見せます。
| デバイス | モデル | tok/s | char/s(日本語) | 文字/トークン |
|---|---|---|---|---|
| ノートPC RTX 4060 (GPU) | qwen2.5:0.5B | 325 | 520 | 1.6 |
| ノートPC RTX 4060 (GPU) | qwen2.5:7B | 52 | 81 | 1.55 |
| Mac mini M4 (Metal) | qwen2.5:0.5B | 154 | 234 | 1.51 |
| Mac mini M4 (Metal) | qwen2.5:7B | 22.5 | 34 | 1.50 |
| Jetson Orin Nano | qwen2.5:1.5B | 35 | 56 | 1.58 |
| Raspberry Pi 5 (CPU) | qwen2.5:1.5B | 11 | 18 | 1.60 |
実用の目安:日本語の黙読は概ね 7〜10 文字/秒(経験則・要検証)。つまり Pi 5 の約18文字/秒でも「読む速さより速い」=実用圏。 ノートやMac(数十〜数百文字/秒)は待ち時間ほぼゼロ。日本語では char/s で見れば「どの機材が快適か」が正しく分かります。
測定機材と立ち位置
Raspberry Pi 5 + Hailo-10H
ビジョンNPU(40 TOPS)
YOLO等を70+ FPS・低電力。LLMはCPU(約11 tok/s)。NPUとCPUの二刀流エッジ機。
Jetson Orin Nano Super
ARM + CUDA
統合メモリで小型LLMはGPU優位が出にくい(≦1倍)。CUDA資産・産業定番。
Mac mini M4 (16GB)
Apple Silicon / Metal
統合メモリでLLM中速・省設定。14Bまでフル。GPU優位は1.1〜1.7倍と小。
ノートPC RTX 4060 Laptop
専用VRAM dGPU
小型LLM最速(0.5B 320 tok/s)。7Bで×4.2、14BはVRAM超過で×2.2に低下。
深掘り・関連
本ベンチで使ったエッジAI機材
このページで実測したデバイス系統の購入リンクです(広告・アフィリエイトリンクを含みます)。
※ 上記リンクはアフィリエイトリンクです。購入により当サイトに収益が発生する場合があります。
自己レビュー(限界・要検証)
- tok/s は英語寄りプロンプト基準。日本語はトークンが約4倍で体感が変わるため、char/s での再計測が必要(経験則・要検証)。
- モデル系統は各機の手持ちを使用(qwen2.5 / qwen3系)。倍率は各デバイス内のサイズ依存を見る目的で、機種間のtok/s絶対比較は同一モデルで再測すべき。
- Jetsonの14Bはメモリ不足で未測定(8GB統合)。Mac miniの35B/26Bは16GB超過で実用外。
- Hailo FPSは
hailortcli benchmarkのHW値。実アプリは前後処理・カメラI/Oでさらに下がる。 - 単発・バッチ1の推論。サーバ用途のバッチ処理ではGPU優位が拡大し得る。