エッジAI実機検証DB
「GPUは本当に速い?」「このスマホで動く?」「日本語LLMはどれだけ出る?」——噂ではなく、自宅ラボの実機ベンチ・ブラウザ訪問端末の匿名実測・日本語純度検証を横断して確かめた事実だけを集めました。ここで“事実”を確認し、次の「比較・選定」で自分の条件に最適な構成を選べます。
実機で確かめた事実(16件)
タグで絞り込めます。各事実は一次データ記事に紐づきます。
ブラウザ実測(訪問端末の匿名集計・ライブ)
集計データを読み込み中…(訪問が増えるほど精度が上がります)
「GPUは10〜20倍速い」はエッジ/ノートでは出ない
最大 ×4.2(RTX 4060 / 7B)
同一機内で num_gpu=0 にしてCPU実行と比較すると、専用VRAMのRTX 4060ノートでも0.5Bで×2.8・7Bで×4.2が最大。統合メモリ機はさらに小さい。よく言う『10〜20倍』はエッジ級では観測されない(単発推論がメモリ帯域律速のため)。
GPU優位の決め手は「メモリ構成」
統合メモリ ×1.1〜1.7/専用VRAM ×4超
Mac mini M4・Jetson Orin Nanoの統合メモリ(LPDDR5)はCPUと帯域を共有するためGPU優位が小さい(≦1〜1.7倍)。専用VRAM(GDDR6)を持つRTX 4060は効く。チップのTOPSより『メモリの種類と容量』が体感速度を決める。
消費者GPUはVRAMを超えると逆に遅くなる
RTX 4060 / 14B で ×2.2 に低下
RTX 4060ノートは7Bで×4.2まで伸びるが、14BではVRAM容量を超えて×2.2まで落ちた。『載り切るか』が速度を左右する。大きいモデルは量子化やモデル縮小、またはVRAMの大きいGPUが要る。
NPU(Hailo)はLLMを動かせない。真価はビジョン
YOLOv8m 76 FPS・ResNet-50 308 FPS
Hailo-8/10HはYOLO等のビジョンCNN専用アクセラレータで、GGUF形式のLLMは動かせない。Pi 5のLLMはCPU実行(約11 tok/s)。NPU=ビジョン高速・省電力/GPU・CPU=LLM(生成)、と用途で住み分ける。
カタログ値(TOPS/TGP)は実機と乖離する
TGP 公称115W → 実機 既定60W
同じRTX 4060 Laptopでも、薄型ノートの電力設計で実性能は変わる。公称TGP最大115Wに対し実機は最大95W・既定60W。最終判断は『公称TOPS』ではなく『タスク別の実測(tok/s・FPS・電力)』が確実。
日本語LLMは tok/s でなく char/s で測れ
同52 tok/s で 英287/日81 char/s(約1/3.5)
日本語は1トークンが約1.5文字(英語は約5.5文字)。同じ52 tok/sでも日本語ユーザーが見る文字数は英語の約1/3.5。tok/s表記は日本語の実速度を約3.5倍過大に見せる。比較は char/s で。
ローカルLLMの日本語に簡体字は混じらなかった
エッジ9モデル実測 = 簡体字 0
qwen2.5/qwen3/qwen3.5/gemma3・lfm(0.5〜8B)を簡体字混入検出器で実測。日本語指示あり・なし・thinking無効のいずれでも簡体字はゼロ(クリーン)。噂を鵜呑みにせず一次データで確認した。
WebGPUはモバイルで断片化。WASM落ち・発熱・クラッシュあり
訪問端末で匿名実測・集計中
対応外のGPU命令だとWASM(CPU)へフォールバックして遅く・発熱・タブ落ちが起こる。どの端末で動くかは多数の実機で集めるしかない。当サイトは訪問端末の結果(端末能力+成否のみ・匿名)を集計し地図にしている。
Pi 5の日本語LLMでも「黙読より速く」実用圏
要検証約18 char/s(黙読 約7〜10字/秒)
Raspberry Pi 5(CPU)のqwen2.5:1.5Bは約18 char/s。日本語の黙読は概ね7〜10字/秒(経験則・要検証)なので、安価なエッジ機でも『読む速さより速い』=待ち時間の少ない実用圏に入る。
スマホ・タブレットでもビジョンAIは実用速度
物体検出 iPhone15Pro 47 / iPad Air M2 54 fps
ブラウザ(WebGPU/GPU)での物体検出・姿勢推定・画像分類は、モバイルでも概ね30〜60fps出る。『スマホでAIは無理』は誤解で、軽量モデルなら手元の端末で実用速度に達する。
安価なPiも「NPUを足す」とビジョンが実用化
RPi5 CPU 7fps → +Hailo 40fps(約5.7倍)
Raspberry Pi 5単体(CPU)の物体検出は約7fpsだが、AI HAT+(Hailo)を足すと約40fpsへ。1〜2万円台のエッジでも、NPUを併用すれば現場運用に足るFPSが出る。
ブラウザLLMの速度はPCとスマホで大差
11〜57 tok/s(Pixel 8 11 / MacBook Pro 57)
同じブラウザLLMでも、ハイエンドPCは数十tok/sで快適、低価格スマホは一桁台で待ちが出る。LLM体験は端末性能の影響が大きい(日本語はtok/sでなくchar/sで体感を測ること)。
電力あたりの性能はエッジ機が圧倒的に有利
要検証実測FPS÷W:Pi+Hailo ~5.0 / Jetson ~3.8 / RTX4060 ~0.2
物体検出の実測FPSを消費電力で割ると、Pi5+Hailo(8W)やJetson(15W)はデスクトップGPU(300W)より桁違いに電力効率が高い。常時稼働・現場設置ではエッジ専用機が効く(公称W使用・経験則)。
連合学習はデータを出さず、毒データはゲートで棄却できる
精度を下げる更新は不採用(単調非減少ラチェット)
連合学習(FL)は端末のデータを送らずモデルだけを共有する。当ラボのFL実装はクライアント更新を品質ゲートで評価し、精度を下げる(悪意ある)更新を棄却。ブラウザで攻防を体験できる。
量子化Q4は日本語品質を落とさずQ8より約1.5倍速い
要検証qwen2.5:7b: Q4 165 / Q8 111 / fp16 65 char/s(簡体字いずれも0)
同一モデル(qwen2.5:7b)を量子化だけ変えてRTX A6000で実測。char/sはQ4_K_MがQ8_0の約1.49倍・fp16の約2.52倍。簡体字混入は3精度ともゼロ、かな比率0.67〜0.71で日本語として自然。文字レベルの日本語品質は量子化で崩れず、速度はQ4が有利(推論の正答率は別軸・要検証)。
Whisperは実時間の17〜35倍速で文字起こし(A6000)。turboが最速かつ最精度
要検証27秒の日本語音声: turbo 34×(CER4.7%) / base 35×(5.5%) / small 17×(7.9%)
transformers の Whisper を RTX A6000(fp16) で実測。3モデルとも実時間の17〜35倍速(RTF 0.03〜0.06)で、large-v3-turboは最速クラスかつ最も正確。音声認識はLLM生成より軽く、エッジでも実用十分。※CERは27秒1クリップ(クリーンな合成音声)の参考値・要検証。
端末 × タスク 実測マトリクス
ビジョン3タスクは FPS(高いほど滑らか)、チャットAIは tok/s。緑=快適(≥50fps)・橙=実用(≥25)・赤=要工夫。★=推定値(実測前)。
| 端末 | 物体検出 | ポーズ推定 | 画像分類 | チャットAI |
|---|---|---|---|---|
| 💻 MacBook Air M3Apple M3 (18 TOPS) | 57 fps | 54 fps | 60 fps | 35 tok/s |
| 💻 MacBook Pro M4 ProApple M4 Pro (38 TOPS) | 60 fps | 60 fps | 60 fps | 57 tok/s |
| 🖥️ Windows PC (RTX 4060)RTX 4060 (232 TOPS) | 60 fps | 60 fps | 60 fps | 52 tok/s |
| 📱 iPhone 15 ProA17 Pro (35 TOPS) | 47 fps | 42 fps | 57 fps | 20 tok/s |
| 📱 Galaxy S24Snapdragon 8 Gen 3 (45 TOPS) | 42 fps | 37 fps | 54 fps | 16 tok/s |
| 📱 Pixel 8Tensor G3 (10 TOPS) | 30 fps | 26 fps | 45 fps | 11 tok/s |
| 📱 iPad Air M2Apple M2 (15 TOPS) | 54 fps | 50 fps | 59 fps | 30 tok/s |
| ⚡ Jetson Orin Nano Super実機所有Ampere GPU (67 TOPS) | 57 fps | 55 fps | 60 fps | 27 tok/s |
| 🧠 RPi 5 + AI HAT+実機所有Hailo-8L (13 TOPS) | 40 fps | 32 fps | 47 fps | 非対応 |
| 🖥️ Raspberry Pi 5実機所有BCM2712 (CPU only) | 7 fps | 5 fps | 12 fps | 2 tok/s |
| 🔌 Coral USB Accelerator実機所有Edge TPU (4 TOPS) | 25 fps★ | 20 fps★ | 35 fps★ | 非対応 |
★ Coral USBは公称ベースの推定値(実測準備中)。その他は実機実測。ビジョンは MediaPipe/COCO-SSD 系、チャットAIは小型LLMをブラウザ/各バックエンドで計測。 機種間の絶対比較は同一モデルでの再測が前提(経験則・要検証)。
日本語LLM 実測(char/s)
日本語ユーザーが体感するのは「1秒あたり何文字」。tok/sは日本語の実速度を約3.5倍過大に見せます(→ char/sで測れ)。
| デバイス | モデル | tok/s | char/s(日本語) |
|---|---|---|---|
| ノートPC RTX 4060 (GPU) | qwen2.5:0.5B | 325 | 520 |
| ノートPC RTX 4060 (GPU) | qwen2.5:7B | 52 | 81 |
| Mac mini M4 (Metal) | qwen2.5:0.5B | 154 | 234 |
| Mac mini M4 (Metal) | qwen2.5:7B | 22.5 | 34 |
| Jetson Orin Nano | qwen2.5:1.5B | 35 | 56 |
| Raspberry Pi 5 (CPU) | qwen2.5:1.5B | 11 | 18 |
LLM: GPU vs CPU(tok/s)
| 機 / モデル | GPU | CPU | 倍率 |
|---|---|---|---|
| ノートPC RTX 4060・0.5B | 320 | 115 | ×2.8 |
| ノートPC RTX 4060・3B | 107 | 27 | ×4.0 |
| ノートPC RTX 4060・7B | 52 | 13 | ×4.2 |
| ノートPC RTX 4060・14B | 13.9 | 6.4 | ×2.2 |
| Mac mini M4・0.5B | 157 | 138 | ×1.1 |
| Mac mini M4・7B | 22.4 | 15.6 | ×1.4 |
| Mac mini M4・14B | 11.7 | 7.1 | ×1.7 |
| Jetson Orin Nano・0.8B | 9.2 | 9.9 | ×0.9 |
| Jetson Orin Nano・2B | 7.0 | 11.3 | ×0.6 |
| Raspberry Pi 5・1.5B | — | 11.4 | — |
NPU: Hailo-10H ビジョンFPS
| モデル | タスク | FPS |
|---|---|---|
| YOLOv11m | 物体検出 | 71 |
| YOLOv8m | 物体検出 | 76 |
| YOLOv8s-pose | 姿勢推定 | 157 |
| ResNet-50 | 画像分類 | 308 |
NPUはビジョン専用でLLM不可。詳細は Hailoレビュー。
一次データ(深掘り記事)
事実を確認できたら、次は自分の条件で最適な構成を選びましょう。
② 比較・選定へ進む(30秒の診断)→自己レビュー(限界・要検証)
- 数値はすべて当ラボ/訪問端末の実測に紐づくが、版・量子化・入力サイズ・前後処理・OEM電力設計で変動する(同一条件での追試を推奨)。
- device×taskのCoral USBは公称ベースの推定値(★)。機種間のtok/s絶対比較は同一モデルでの再測が前提。
- ブラウザ実測(telemetry)は公開直後はサンプルが少なく参考値。訪問が増えるほど精度が上がる。
- 「黙読7〜10字/秒」等は経験則(要検証)。簡体字検出は例示集合のため網羅は要拡張。