エッジAIラボ
エッジAIラボ
実機一次データ・定点観測

エッジAI実機ベンチ大全(β)

自宅ラボの実機(Pi 5+Hailo-10H / Jetson Orin Nano / Mac mini M4 / RTX 4060ノート)を同一手法で実測。LLMの tok/s(GPU vs CPU・モデルサイズ別)、Hailo-10H の YOLO FPS、そして「公称 vs 実測」の乖離を、測定メソドロジーごと公開します。

この実測でわかったこと(要点)

  • 1.「GPUは10〜20倍速い」はエッジでは出ない。最大でRTX 4060ノートの7Bで約4.2倍。
  • 2.GPU優位の決め手はメモリ構成。専用VRAM(GDDR6)は効くが、統合メモリ(Mac/Jetson)はCPUと帯域共有でほぼ効かない。
  • 3.消費者GPUはVRAMを超えると逆に低下(RTX 4060の14Bで×2.2)。
  • 4.NPU(Hailo-10H)はLLMを動かせない。真価はYOLOで70+ FPS/分類で300+ FPSのビジョン側。
  • 5.カタログ値は実機と乖離(TGP公称115W→実機95W等)。タスク別の実測で選ぶべき。

測定メソドロジー(透明性)

競合が複製しにくい一次データほど引用されます。手法を全部公開します(追試歓迎)。

  • LLM: Ollama /api/generatestream=false, num_predict=128, 同一プロンプト)。tok/s = eval_count ÷ (eval_duration/1e9)。CPU値は options.num_gpu=0 でGPUを無効化。
  • NPU: hailortcli benchmark(HailoRT 5.1.1、Hailo-10H用にコンパイルした .hef)。
  • 電力/クロック: nvidia-smi を生成中に並行サンプリング。
  • 機材: RTX 4060 Laptop + i7-13700H / Mac mini M4 16GB / Jetson Orin Nano Super / Raspberry Pi 5 + Hailo-10H。
  • 注意: 値は版・量子化・入力サイズ・前後処理で変動。tok/s は英語寄り基準のため、日本語は char/s で別途実測(下記 ④)。

① LLM 実測:GPU vs CPU(tok/s・モデルサイズ別)

同一機内で num_gpu=0 によりCPU実行に切り替えて比較。倍率=GPU÷CPU。

デバイスメモリモデルGPU tok/sCPU tok/s倍率
ノートPC RTX 4060専用VRAM(GDDR6)0.5B320115×2.8
ノートPC RTX 4060専用VRAM(GDDR6)3B10727×4.0
ノートPC RTX 4060専用VRAM(GDDR6)7B5213×4.2最大
ノートPC RTX 4060専用VRAM(GDDR6)14B13.96.4×2.2VRAM超過で低下
Mac mini M4統合(LPDDR5)0.5B157138×1.1
Mac mini M4統合(LPDDR5)7B22.415.6×1.4
Mac mini M4統合(LPDDR5)14B11.77.1×1.7
Jetson Orin Nano統合(LPDDR5)0.8B9.29.9×0.9GPU≒CPU
Jetson Orin Nano統合(LPDDR5)2B7.011.3×0.6GPUが遅い
Raspberry Pi 5GPUなし(CPU)1.5B11.4CPUのみ

② NPU 実測:Hailo-10H のビジョンFPS

40 TOPSの専用NPU(Raspberry Pi 5 + Hailo-10H)。LLMは動かせないが、ビジョン推論は高FPS・低電力。

モデルタスク実測FPS
YOLOv11m物体検出71
YOLOv8m物体検出76
YOLOv8s-pose姿勢推定157
ResNet-50画像分類308

③ 公称 vs 実測(RTX 4060 Laptop)

同じ「RTX 4060 Laptop」でも、OEMの電力設計で実性能は変わります。

項目公称(NVIDIA)実機実測
TGP(電力上限)最大115W(35〜115W可変)最大95W/既定60W
GPUブーストクロック最大 2370MHz負荷時 約2600MHz(公称超)
消費電力アイドル12.86W → LLM生成中ピーク約70W
AI性能233 AI TOPS(INT8理論ピーク)LLM 0.5B ≈ 320 tok/s(GPU)

④ 日本語 char/s — tok/s の落とし穴

日本語ユーザーが体感するのは「1秒あたり何文字出るか(char/s)」であって tok/s ではありません。 そして日本語は同じ tok/s でも出る文字数が英語より大幅に少ない——これを実機で確認しました。

同一モデル・同一機・同じ tok/s でも、見える文字数は約1/3.5(RTX 4060 / qwen2.5:7B)

言語tok/schar/s文字/トークン
英語522875.5
日本語52811.55

同じ「52 tok/s」でも、英語は約287文字/秒・日本語は約81文字/秒。日本語は1トークンが約1.5文字(英語は約5.5文字)なので、tok/s表記は日本語ユーザーにとって実速度を約3.5倍過大に見せます

デバイスモデルtok/schar/s(日本語)文字/トークン
ノートPC RTX 4060 (GPU)qwen2.5:0.5B3255201.6
ノートPC RTX 4060 (GPU)qwen2.5:7B52811.55
Mac mini M4 (Metal)qwen2.5:0.5B1542341.51
Mac mini M4 (Metal)qwen2.5:7B22.5341.50
Jetson Orin Nanoqwen2.5:1.5B35561.58
Raspberry Pi 5 (CPU)qwen2.5:1.5B11181.60

実用の目安:日本語の黙読は概ね 7〜10 文字/秒(経験則・要検証)。つまり Pi 5 の約18文字/秒でも「読む速さより速い」=実用圏。 ノートやMac(数十〜数百文字/秒)は待ち時間ほぼゼロ。日本語では char/s で見れば「どの機材が快適か」が正しく分かります

測定機材と立ち位置

Raspberry Pi 5 + Hailo-10H

ビジョンNPU(40 TOPS)

YOLO等を70+ FPS・低電力。LLMはCPU(約11 tok/s)。NPUとCPUの二刀流エッジ機。

Jetson Orin Nano Super

ARM + CUDA

統合メモリで小型LLMはGPU優位が出にくい(≦1倍)。CUDA資産・産業定番。

Mac mini M4 (16GB)

Apple Silicon / Metal

統合メモリでLLM中速・省設定。14Bまでフル。GPU優位は1.1〜1.7倍と小。

ノートPC RTX 4060 Laptop

専用VRAM dGPU

小型LLM最速(0.5B 320 tok/s)。7Bで×4.2、14BはVRAM超過で×2.2に低下。

本ベンチで使ったエッジAI機材

このページで実測したデバイス系統の購入リンクです(広告・アフィリエイトリンクを含みます)。

高性能

NVIDIA Jetson Orin Nano

最大67 TOPSのAI性能。複数カメラの同時処理や高精度モデルの実行に最適なエッジAIボード。

📷おすすめ

Raspberry Pi AI Camera(IMX500)

Sony IMX500搭載のAI処理内蔵カメラ。カメラ側でAI推論を実行し、ホストの負荷が極めて低い。

🖥️定番

Raspberry Pi 5

エッジAIの定番ボード。8GB RAMモデルでAI推論からカメラ制御まで幅広く対応。

🎥

4K Webカメラ(AI対応)

高解像度のWebカメラでAI認識の精度が向上。オートフォーカス・広角対応モデルがおすすめ。

🧠高性能

Hailo-8L AIアクセラレータ

13 TOPSのAI推論性能。Raspberry Pi 5のM.2スロットに装着してAI処理を高速化。

🔌

Google Coral USB Accelerator

既存のPCやRaspberry PiにUSB接続するだけでAI推論を高速化。4 TOPSのEdge TPU搭載。

※ 上記リンクはアフィリエイトリンクです。購入により当サイトに収益が発生する場合があります。

自己レビュー(限界・要検証)

  • tok/s は英語寄りプロンプト基準。日本語はトークンが約4倍で体感が変わるため、char/s での再計測が必要(経験則・要検証)。
  • モデル系統は各機の手持ちを使用(qwen2.5 / qwen3系)。倍率は各デバイスのサイズ依存を見る目的で、機種間のtok/s絶対比較は同一モデルで再測すべき。
  • Jetsonの14Bはメモリ不足で未測定(8GB統合)。Mac miniの35B/26Bは16GB超過で実用外。
  • Hailo FPSは hailortcli benchmark のHW値。実アプリは前後処理・カメラI/Oでさらに下がる。
  • 単発・バッチ1の推論。サーバ用途のバッチ処理ではGPU優位が拡大し得る。

業務での機種選定・実測のご相談

「自社タスクで実際どの構成が速い/安い/省電力か」を、実機ベンチで切り分けてご提案します。

相談する(Link Field)