一次データ横断・実機検証

エッジAI実機検証DB

Name: エッジAI実機検証DB（一次データ）
Creator: 齊藤晃紀
License: https://creativecommons.org/licenses/by/4.0/

「GPUは本当に速い？」「このスマホで動く？」「日本語LLMはどれだけ出る？」——噂ではなく、自宅ラボの実機ベンチ・ブラウザ訪問端末の匿名実測・日本語純度検証を横断して確かめた事実だけを集めました。ここで“事実”を確認し、次の「比較・選定」で自分の条件に最適な構成を選べます。

この検証DBの使い方

エッジAIの情報は「カタログTOPS」や「GPUは速い」といった噂・公称値が多く、実機の体感とずれます。ここは、当ラボが同一手法で実測した一次データだけを横断インデックス化した場所です。各カードの結論は必ず「根拠（実機の一次データ）」へ紐づきます（クリックで深掘り記事へ）。事実を確認したら比較・選定で自分の条件に最適な構成を選び、つまずいたらトラブルシュートへ。

📥 このデータを使う・引用する

当ラボの一次データ（実機実測）は、研究・記事・社内検討にそのまま使えます。 CSV/JSONで持ち帰るか、機械可読の安定URLを参照してください。本データはクリエイティブ・コモンズ表示 4.0 国際（CC BY 4.0）で提供します。作者名と出典（本ページURL）を明記すれば、商用利用を含め自由に引用・転載・再配布できます。

最終更新 2026-07-03

🔗 API（安定URL）

出典例：齊藤晃紀（2026）「エッジAI実機検証DB（一次データ）」エッジAIラボ（ai-edge-lab.com）. https://ai-edge-lab.com/edge-ai-verified/（2026-07-03 閲覧）
ライセンス：CC BY 4.0（作者名と出典URLの明記で、商用含め自由に利用できます）

実機で確かめた事実（19件）

タグで絞り込めます。各事実は一次データ記事に紐づきます。

ブラウザ実測（2026-07-15以降の明示同意データ・ライブ）

集計データを読み込み中…（訪問が増えるほど精度が上がります）

自端末を判定 / 詳細 →

絞り込み:

「GPUは10〜20倍速い」はエッジ/ノートでは出ない

最大 ×4.2（RTX 4060 / 7B）

同一機内で num_gpu=0 にしてCPU実行と比較すると、専用VRAMのRTX 4060ノートでも0.5Bで×2.8・7Bで×4.2が最大。統合メモリ機はさらに小さい。よく言う『10〜20倍』はエッジ級では観測されない（単発推論がメモリ帯域律速のため）。

LLMハード選定実機

根拠（実機の一次データ）: “GPUは10〜20倍速い”は嘘？ →

GPU優位の決め手は「メモリ構成」

統合メモリ ×1.1〜1.7／専用VRAM ×4超

Mac mini M4・Jetson Orin Nanoの統合メモリ(LPDDR5)はCPUと帯域を共有するためGPU優位が小さい（≦1〜1.7倍）。専用VRAM(GDDR6)を持つRTX 4060は効く。チップのTOPSより『メモリの種類と容量』が体感速度を決める。

LLMハード選定実機

根拠（実機の一次データ）: 実機ベンチ大全（GPU vs CPU） →

消費者GPUはVRAMを超えると逆に遅くなる

RTX 4060 / 14B で ×2.2 に低下

RTX 4060ノートは7Bで×4.2まで伸びるが、14BではVRAM容量を超えて×2.2まで落ちた。『載り切るか』が速度を左右する。大きいモデルは量子化やモデル縮小、またはVRAMの大きいGPUが要る。

LLMハード選定実機

根拠（実機の一次データ）: 実機ベンチ大全（モデルサイズ別） →

汎用Ollama/llama.cpp（GGUF）はHailoのNPUを使わずCPU実行になる

YOLOv8m 76 FPS・ResNet-50 308 FPS（ビジョン側の真価）

Hailo-8/8L/10HはHailoRT/TAPPASという専用ランタイム向けにコンパイルしたモデルしか実行できず、汎用のOllama/llama.cppが読むGGUF形式はNPU非対応でCPU実行にフォールバックする（Pi 5のCPU実行は約11 tok/s）。ただしHailo-10H限定でHailo公式のGenAI専用ツール『hailo-ollama』を使えばNPU上でLLMを動かせる（→ npu-genai-hailo10h）。旧型のHailo-8Lにはこの経路がなく、ビジョン専用のまま。

ビジョン実機ハード選定

根拠（実機の一次データ）: Hailo-10Hレビュー →

Hailo-10H(AI HAT+2)はHailo公式ツール経由でLLMも動く。ただしCPUより速いとは限らない

要検証

Llama3.2 1B: NPU 9.69 > CPU 8.72 tok/s／Qwen2.5 1.5B: NPU 7.23 < CPU 11.76 tok/s

Raspberry Pi 5 + AI HAT+2（Hailo-10H・HailoRT 5.3.0）に実機SSHで接続し、Hailo公式のOllama互換サーバ『hailo-ollama』(NPU)と同一機の素のOllama(CPU)を同一プロンプト・num_predict=80・ウォームアップ1回破棄後の単発計測で比較。Llama3.2 1BはNPUがCPUより約11%速いが、Qwen2.5 1.5BはCPUの方が約63%速く、「40 TOPSだから常に速い」は成立しない（小型LLMはメモリ帯域律速のため）。Qwen2.5のNPU出力にごく軽微な文字化けも確認。公式パッケージ(hailo-gen-ai-model-zoo)にVLMモデルは含まれず、Hailoが謳うVLM対応はこの範囲では未確認。単発計測のため複数回平均ではない点に注意。

LLM実機ハード選定

根拠（実機の一次データ）: Hailo-10Hレビュー（GenAI実測） →

カタログ値(TOPS/TGP)は実機と乖離する

TGP 公称115W → 実機既定60W

同じRTX 4060 Laptopでも、薄型ノートの電力設計で実性能は変わる。公称TGP最大115Wに対し実機は最大95W・既定60W。最終判断は『公称TOPS』ではなく『タスク別の実測(tok/s・FPS・電力)』が確実。

ハード選定実機

根拠（実機の一次データ）: 公称 vs 実測（実機ベンチ大全 ③） →

日本語LLMは tok/s でなく char/s で測れ

同52 tok/s で英287／日81 char/s（約1/3.5）

日本語は1トークンが約1.5文字（英語は約5.5文字）。同じ52 tok/sでも日本語ユーザーが見る文字数は英語の約1/3.5。tok/s表記は日本語の実速度を約3.5倍過大に見せる。比較は char/s で。

LLM日本語

根拠（実機の一次データ）: 日本語LLMは char/s で測れ →

ローカルLLMの日本語に簡体字は混じらなかった

エッジ9モデル実測 = 簡体字 0

qwen2.5/qwen3/qwen3.5/gemma3・lfm（0.5〜8B）を簡体字混入検出器で実測。日本語指示あり・なし・thinking無効のいずれでも簡体字はゼロ（クリーン）。噂を鵜呑みにせず一次データで確認した。

LLM日本語

根拠（実機の一次データ）: 日本語に中国語は混じる？ →

WebGPUはモバイルで断片化。WASM落ち・発熱・クラッシュあり

訪問端末で匿名実測・集計中

対応外のGPU命令だとWASM(CPU)へフォールバックして遅く・発熱・タブ落ちが起こる。どの端末で動くかは多数の実機で集めるしかない。当サイトは訪問端末の結果（端末能力＋成否のみ・匿名）を集計し地図にしている。

ブラウザ

根拠（実機の一次データ）: WebGPU対応状況マトリクス →

Pi 5の日本語LLMでも「黙読より速く」実用圏

要検証

約18 char/s（黙読約7〜10字/秒）

Raspberry Pi 5(CPU)のqwen2.5:1.5Bは約18 char/s。日本語の黙読は概ね7〜10字/秒（経験則・要検証）なので、安価なエッジ機でも『読む速さより速い』＝待ち時間の少ない実用圏に入る。

実機LLM日本語

根拠（実機の一次データ）: 実機ベンチ大全（日本語 char/s） →

スマホ・タブレットでもビジョンAIは実用速度

物体検出 iPhone15Pro 47 / iPad Air M2 54 fps

ブラウザ(WebGPU/GPU)での物体検出・姿勢推定・画像分類は、モバイルでも概ね30〜60fps出る。『スマホでAIは無理』は誤解で、軽量モデルなら手元の端末で実用速度に達する。

ビジョンブラウザ

根拠（実機の一次データ）: 端末ベンチ比較 →

安価なPiも「NPUを足す」とビジョンが実用化

RPi5 CPU 7fps → +Hailo 40fps（約5.7倍）

Raspberry Pi 5単体(CPU)の物体検出は約7fpsだが、AI HAT+(Hailo)を足すと約40fpsへ。1〜2万円台のエッジでも、NPUを併用すれば現場運用に足るFPSが出る。

ビジョン実機ハード選定

根拠（実機の一次データ）: 実機ベンチ大全（NPU FPS） →

ブラウザLLMの速度はPCとスマホで大差

11〜57 tok/s（Pixel 8 11 ／ MacBook Pro 57）

同じブラウザLLMでも、ハイエンドPCは数十tok/sで快適、低価格スマホは一桁台で待ちが出る。LLM体験は端末性能の影響が大きい（日本語はtok/sでなくchar/sで体感を測ること）。

LLMブラウザ

根拠（実機の一次データ）: 端末ベンチ比較 →

電力あたりの性能はエッジ機が圧倒的に有利

要検証

実測FPS÷W：Pi+Hailo ~5.0 ／ Jetson ~3.8 ／ RTX4060 ~0.2

物体検出の実測FPSを消費電力で割ると、Pi5+Hailo(8W)やJetson(15W)はデスクトップGPU(300W)より桁違いに電力効率が高い。常時稼働・現場設置ではエッジ専用機が効く（公称W使用・経験則）。

ハード選定実機

根拠（実機の一次データ）: 実機ベンチ大全 →

連合学習はデータを出さず、毒データはゲートで棄却できる

精度を下げる更新は不採用（単調非減少ラチェット）

連合学習(FL)は端末のデータを送らずモデルだけを共有する。当ラボのFL実装はクライアント更新を品質ゲートで評価し、精度を下げる（悪意ある）更新を棄却。ブラウザで攻防を体験できる。

連合学習ブラウザ実機

根拠（実機の一次データ）: 連合学習（FL）ガイド →

量子化Q4は日本語品質を落とさずQ8より約1.5倍速い

要検証

qwen2.5:7b: Q4 165 ／ Q8 111 ／ fp16 65 char/s（簡体字いずれも0）

同一モデル(qwen2.5:7b)を量子化だけ変えてRTX A6000で実測。char/sはQ4_K_MがQ8_0の約1.49倍・fp16の約2.52倍。簡体字混入は3精度ともゼロ、かな比率0.67〜0.71で日本語として自然。文字レベルの日本語品質は量子化で崩れず、速度はQ4が有利（推論の正答率は別軸・要検証）。

LLM日本語実機

根拠（実機の一次データ）: 日本語LLMは char/s で測れ（量子化別実測） →

Whisperは実時間の17〜35倍速で文字起こし（A6000）。turboが最速かつ最精度

要検証

27秒の日本語音声: turbo 34×(CER4.7%) ／ base 35×(5.5%) ／ small 17×(7.9%)

transformers の Whisper を RTX A6000(fp16) で実測。3モデルとも実時間の17〜35倍速（RTF 0.03〜0.06）で、large-v3-turboは最速クラスかつ最も正確。音声認識はLLM生成より軽く、エッジでも実用十分。※CERは27秒1クリップ(クリーンな合成音声)の参考値・要検証。

音声実機日本語

根拠（実機の一次データ）: 実機ベンチ大全（Whisper 実測） →

7-8B帯はqwen2.5≒llama3.1が日本語最速。簡体字混入は全ファミリーで0

要検証

char/s: qwen2.5:7b 169 ／ llama3.1:8b 162 ／ mistral:7b 138（簡体字いずれも0）

同一和文プロンプト・同サイズ帯(7-8B Q4)をRTX A6000で横断実測。char/sはqwen2.5≒llama3.1>mistral。簡体字混入はQwen系含め全モデルで0＝日本語純度は良好。一方で出力の癖は別で、mistralは英語混じり・llama3.1はMarkdown多用・thinking型(lfm2.5等)は思考が英語化し比較対象外。

LLM日本語実機

根拠（実機の一次データ）: 実機ベンチ大全（ローカルLLM横断） →

VLMはA6000で画像を約1秒で正確に日本語説明。Qwen2.5-VL 3Bでも実用十分

要検証

応答時間: Qwen2.5-VL-3B 0.93s ／ 7B 1.61s（被写体を正確に同定）。SmolVLM-256Mは説明失敗

写真を「日本語で説明して」とVLMに依頼しRTX A6000で実測。Qwen2.5-VL 3B/7Bは約1〜1.6秒で被写体を正確に同定（猫2匹・テレビのリモコン・ソファ）、3Bが最速。極小のSmolVLM-256Mは速いが指示を反復するだけで説明できず＝VLMはモデルサイズが品質の下限を決める。

ビジョンLLM実機

根拠（実機の一次データ）: 実機ベンチ大全（VLM 画像理解） →

端末 × タスク実測マトリクス

ビジョン3タスクは FPS（高いほど滑らか）、チャットAIは tok/s。緑=快適(≥50fps)・橙=実用(≥25)・赤=要工夫。★=推定値（実測前）。

端末	物体検出	ポーズ推定	画像分類	チャットAI
💻 MacBook Air M3Apple M3 (18 TOPS)	57 fps	54 fps	60 fps	35 tok/s
💻 MacBook Pro M4 ProApple M4 Pro (38 TOPS)	60 fps	60 fps	60 fps	57 tok/s
🖥️ Windows PC (RTX 4060)RTX 4060 (232 TOPS)	60 fps	60 fps	60 fps	52 tok/s
📱 iPhone 15 ProA17 Pro (35 TOPS)	47 fps	42 fps	57 fps	20 tok/s
📱 Galaxy S24Snapdragon 8 Gen 3 (45 TOPS)	42 fps	37 fps	54 fps	16 tok/s
📱 Pixel 8Tensor G3 (10 TOPS)	30 fps	26 fps	45 fps	11 tok/s
📱 iPad Air M2Apple M2 (15 TOPS)	54 fps	50 fps	59 fps	30 tok/s
⚡ Jetson Orin Nano Super実機所有Ampere GPU (67 TOPS)	57 fps	55 fps	60 fps	27 tok/s
🧠 RPi 5 + AI HAT+実機所有Hailo-8L (13 TOPS)	40 fps	32 fps	47 fps	非対応
🖥️ Raspberry Pi 5実機所有BCM2712 (CPU only)	7 fps	5 fps	12 fps	2 tok/s
🔌 Coral USB Accelerator実機所有Edge TPU (4 TOPS)	25 fps★	20 fps★	35 fps★	非対応

★ Coral USBは公称ベースの推定値（実測準備中）。その他は実機実測。ビジョンは MediaPipe/COCO-SSD 系、チャットAIは小型LLMをブラウザ/各バックエンドで計測。機種間の絶対比較は同一モデルでの再測が前提（経験則・要検証）。

並べ替えて比較（コスパ・電力効率）

同じ実測値でも、見る軸で“勝者”は変わります。コスパ（実測/¥1万）や電力効率（実測/W）で並べ替えると、常時稼働・現場設置でエッジ機が効く理由が一目で分かります。

タスク:

端末	fps / tok/s	円	W	実測/¥1万	実測/W
🥇🔌 Coral USB Accelerator実機Edge TPU (4 TOPS)	25fps★	¥10,000	2W	25.0	12.5
📱 iPhone 15 ProA17 Pro (35 TOPS)	47fps	¥159,800	5W	2.9	9.4
📱 Galaxy S24Snapdragon 8 Gen 3 (45 TOPS)	42fps	¥124,700	5W	3.4	8.4
📱 Pixel 8Tensor G3 (10 TOPS)	30fps	¥82,280	5W	3.6	6.0
📱 iPad Air M2Apple M2 (15 TOPS)	54fps	¥98,800	10W	5.5	5.4
🧠 RPi 5 + AI HAT+実機Hailo-8L (13 TOPS)	40fps	¥23,000	8W	17.4	5.0
⚡ Jetson Orin Nano Super実機Ampere GPU (67 TOPS)	57fps	¥75,000	15W	7.6	3.8
💻 MacBook Air M3Apple M3 (18 TOPS)	57fps	¥164,800	30W	3.5	1.9
🖥️ Raspberry Pi 5実機BCM2712 (CPU only)	7fps	¥13,000	5W	5.4	1.4
💻 MacBook Pro M4 ProApple M4 Pro (38 TOPS)	60fps	¥298,800	70W	2.0	0.9
🖥️ Windows PC (RTX 4060)RTX 4060 (232 TOPS)	60fps	¥150,000	300W	4.0	0.2

コスパ＝実測値÷(価格/1万円)、電力効率＝実測値÷消費電力(W)。価格・電力は本体の代表値で周辺機器を含まない目安。 ★は推定値（Coral USB）。絶対比較は同一モデルでの再測が前提（経験則・要検証）。電力は一部が公称値。

日本語LLM 実測（char/s）

日本語ユーザーが体感するのは「1秒あたり何文字」。tok/sは日本語の実速度を約3.5倍過大に見せます（→ char/sで測れ）。

デバイス	モデル	tok/s	char/s（日本語）
ノートPC RTX 4060 (GPU)	qwen2.5:0.5B	325	520
ノートPC RTX 4060 (GPU)	qwen2.5:7B	52	81
Mac mini M4 (Metal)	qwen2.5:0.5B	154	234
Mac mini M4 (Metal)	qwen2.5:7B	22.5	34
Jetson Orin Nano	qwen2.5:1.5B	35	56
Raspberry Pi 5 (CPU)	qwen2.5:1.5B	11	18

LLM: GPU vs CPU（tok/s）

機 / モデル	GPU	CPU	倍率
ノートPC RTX 4060・0.5B	320	115	×2.8
ノートPC RTX 4060・3B	107	27	×4.0
ノートPC RTX 4060・7B	52	13	×4.2
ノートPC RTX 4060・14B	13.9	6.4	×2.2
Mac mini M4・0.5B	157	138	×1.1
Mac mini M4・7B	22.4	15.6	×1.4
Mac mini M4・14B	11.7	7.1	×1.7
Jetson Orin Nano・0.8B	9.2	9.9	×0.9
Jetson Orin Nano・2B	7.0	11.3	×0.6
Raspberry Pi 5・1.5B	—	11.4	—

NPU: Hailo-10H ビジョンFPS

モデル	タスク	FPS
YOLOv11m	物体検出	71
YOLOv8m	物体検出	76
YOLOv8s-pose	姿勢推定	157
ResNet-50	画像分類	308

真価はビジョン。汎用ツールはLLMでNPU非対応だが、Hailo公式ツール経由ならLLMも動く（実測は伯仲〜CPU優位）。詳細は Hailoレビュー。

一次データ（深掘り記事）

🔬 実機ベンチ大全（測定法つき）

LLM tok/s・NPU FPS・char/s・公称vs実測を全公開

💡 “GPUは10〜20倍速い”は嘘？

実測で見えた“意外な発見”を読み物に

🇯🇵 日本語LLMは char/s で測れ

tok/sの落とし穴と各機の文字速度

🈶 日本語に中国語は混じる？

簡体字混入を検出器で9モデル実測

📊 WebGPU対応マトリクス

訪問端末の匿名実測でブラウザ対応を可視化

📈 端末ベンチ比較

FPS・推論時間・tok/sを端末別に比較

事実を確認できたら、次は自分の条件で最適な構成を選びましょう。

② 比較・選定へ進む（30秒の診断）→

適用範囲と要検証事項

数値はすべて当ラボ/訪問端末の実測に紐づくが、版・量子化・入力サイズ・前後処理・OEM電力設計で変動する（同一条件での追試を推奨）。
device×taskのCoral USBは公称ベースの推定値（★）。機種間のtok/s絶対比較は同一モデルでの再測が前提。
ブラウザ実測(telemetry)は公開直後はサンプルが少なく参考値。訪問が増えるほど精度が上がる。
「黙読7〜10字/秒」等は経験則（要検証）。簡体字検出は例示集合のため網羅は要拡張。

エッジAI実機検証DB

この検証DBの使い方

📥 このデータを使う・引用する

実機で確かめた事実（19件）

「GPUは10〜20倍速い」はエッジ/ノートでは出ない

GPU優位の決め手は「メモリ構成」

消費者GPUはVRAMを超えると逆に遅くなる

汎用Ollama/llama.cpp（GGUF）はHailoのNPUを使わずCPU実行になる

Hailo-10H(AI HAT+2)はHailo公式ツール経由でLLMも動く。ただしCPUより速いとは限らない

カタログ値(TOPS/TGP)は実機と乖離する

日本語LLMは tok/s でなく char/s で測れ

ローカルLLMの日本語に簡体字は混じらなかった

WebGPUはモバイルで断片化。WASM落ち・発熱・クラッシュあり

Pi 5の日本語LLMでも「黙読より速く」実用圏

スマホ・タブレットでもビジョンAIは実用速度

安価なPiも「NPUを足す」とビジョンが実用化

ブラウザLLMの速度はPCとスマホで大差

電力あたりの性能はエッジ機が圧倒的に有利

連合学習はデータを出さず、毒データはゲートで棄却できる

量子化Q4は日本語品質を落とさずQ8より約1.5倍速い

Whisperは実時間の17〜35倍速で文字起こし（A6000）。turboが最速かつ最精度

7-8B帯はqwen2.5≒llama3.1が日本語最速。簡体字混入は全ファミリーで0

VLMはA6000で画像を約1秒で正確に日本語説明。Qwen2.5-VL 3Bでも実用十分

端末 × タスク 実測マトリクス

並べ替えて比較（コスパ・電力効率）

日本語LLM 実測（char/s）

LLM: GPU vs CPU（tok/s）

NPU: Hailo-10H ビジョンFPS

一次データ（深掘り記事）

適用範囲と要検証事項

端末 × タスク実測マトリクス