エッジAIラボ
エッジAIラボ
一次データ横断・実機検証

エッジAI実機検証DB

「GPUは本当に速い?」「このスマホで動く?」「日本語LLMはどれだけ出る?」——噂ではなく、自宅ラボの実機ベンチ・ブラウザ訪問端末の匿名実測・日本語純度検証を横断して確かめた事実だけを集めました。ここで“事実”を確認し、次の「比較・選定」で自分の条件に最適な構成を選べます。

この検証DBの使い方

エッジAIの情報は「カタログTOPS」や「GPUは速い」といった噂・公称値が多く、実機の体感とずれます。 ここは、当ラボが同一手法で実測した一次データだけを横断インデックス化した場所です。 各カードの結論は必ず「根拠(実機の一次データ)」へ紐づきます(クリックで深掘り記事へ)。 事実を確認したら 比較・選定 で自分の条件に最適な構成を選び、 つまずいたら トラブルシュート へ。

実機で確かめた事実(16件)

タグで絞り込めます。各事実は一次データ記事に紐づきます。

ブラウザ実測(訪問端末の匿名集計・ライブ)

集計データを読み込み中…(訪問が増えるほど精度が上がります)

自端末を判定 / 詳細 →
絞り込み:

「GPUは10〜20倍速い」はエッジ/ノートでは出ない

最大 ×4.2(RTX 4060 / 7B)

同一機内で num_gpu=0 にしてCPU実行と比較すると、専用VRAMのRTX 4060ノートでも0.5Bで×2.8・7Bで×4.2が最大。統合メモリ機はさらに小さい。よく言う『10〜20倍』はエッジ級では観測されない(単発推論がメモリ帯域律速のため)。

LLMハード選定実機
根拠(実機の一次データ): “GPUは10〜20倍速い”は嘘?

GPU優位の決め手は「メモリ構成」

統合メモリ ×1.1〜1.7/専用VRAM ×4超

Mac mini M4・Jetson Orin Nanoの統合メモリ(LPDDR5)はCPUと帯域を共有するためGPU優位が小さい(≦1〜1.7倍)。専用VRAM(GDDR6)を持つRTX 4060は効く。チップのTOPSより『メモリの種類と容量』が体感速度を決める。

LLMハード選定実機
根拠(実機の一次データ): 実機ベンチ大全(GPU vs CPU)

消費者GPUはVRAMを超えると逆に遅くなる

RTX 4060 / 14B で ×2.2 に低下

RTX 4060ノートは7Bで×4.2まで伸びるが、14BではVRAM容量を超えて×2.2まで落ちた。『載り切るか』が速度を左右する。大きいモデルは量子化やモデル縮小、またはVRAMの大きいGPUが要る。

LLMハード選定実機
根拠(実機の一次データ): 実機ベンチ大全(モデルサイズ別)

NPU(Hailo)はLLMを動かせない。真価はビジョン

YOLOv8m 76 FPS・ResNet-50 308 FPS

Hailo-8/10HはYOLO等のビジョンCNN専用アクセラレータで、GGUF形式のLLMは動かせない。Pi 5のLLMはCPU実行(約11 tok/s)。NPU=ビジョン高速・省電力/GPU・CPU=LLM(生成)、と用途で住み分ける。

ビジョン実機ハード選定
根拠(実機の一次データ): Hailo-10Hレビュー

カタログ値(TOPS/TGP)は実機と乖離する

TGP 公称115W → 実機 既定60W

同じRTX 4060 Laptopでも、薄型ノートの電力設計で実性能は変わる。公称TGP最大115Wに対し実機は最大95W・既定60W。最終判断は『公称TOPS』ではなく『タスク別の実測(tok/s・FPS・電力)』が確実。

ハード選定実機
根拠(実機の一次データ): 公称 vs 実測(実機ベンチ大全 ③)

日本語LLMは tok/s でなく char/s で測れ

同52 tok/s で 英287/日81 char/s(約1/3.5)

日本語は1トークンが約1.5文字(英語は約5.5文字)。同じ52 tok/sでも日本語ユーザーが見る文字数は英語の約1/3.5。tok/s表記は日本語の実速度を約3.5倍過大に見せる。比較は char/s で。

LLM日本語
根拠(実機の一次データ): 日本語LLMは char/s で測れ

ローカルLLMの日本語に簡体字は混じらなかった

エッジ9モデル実測 = 簡体字 0

qwen2.5/qwen3/qwen3.5/gemma3・lfm(0.5〜8B)を簡体字混入検出器で実測。日本語指示あり・なし・thinking無効のいずれでも簡体字はゼロ(クリーン)。噂を鵜呑みにせず一次データで確認した。

LLM日本語
根拠(実機の一次データ): 日本語に中国語は混じる?

WebGPUはモバイルで断片化。WASM落ち・発熱・クラッシュあり

訪問端末で匿名実測・集計中

対応外のGPU命令だとWASM(CPU)へフォールバックして遅く・発熱・タブ落ちが起こる。どの端末で動くかは多数の実機で集めるしかない。当サイトは訪問端末の結果(端末能力+成否のみ・匿名)を集計し地図にしている。

ブラウザ
根拠(実機の一次データ): WebGPU対応状況マトリクス

Pi 5の日本語LLMでも「黙読より速く」実用圏

要検証

約18 char/s(黙読 約7〜10字/秒)

Raspberry Pi 5(CPU)のqwen2.5:1.5Bは約18 char/s。日本語の黙読は概ね7〜10字/秒(経験則・要検証)なので、安価なエッジ機でも『読む速さより速い』=待ち時間の少ない実用圏に入る。

実機LLM日本語
根拠(実機の一次データ): 実機ベンチ大全(日本語 char/s)

スマホ・タブレットでもビジョンAIは実用速度

物体検出 iPhone15Pro 47 / iPad Air M2 54 fps

ブラウザ(WebGPU/GPU)での物体検出・姿勢推定・画像分類は、モバイルでも概ね30〜60fps出る。『スマホでAIは無理』は誤解で、軽量モデルなら手元の端末で実用速度に達する。

ビジョンブラウザ
根拠(実機の一次データ): 端末ベンチ比較

安価なPiも「NPUを足す」とビジョンが実用化

RPi5 CPU 7fps → +Hailo 40fps(約5.7倍)

Raspberry Pi 5単体(CPU)の物体検出は約7fpsだが、AI HAT+(Hailo)を足すと約40fpsへ。1〜2万円台のエッジでも、NPUを併用すれば現場運用に足るFPSが出る。

ビジョン実機ハード選定
根拠(実機の一次データ): 実機ベンチ大全(NPU FPS)

ブラウザLLMの速度はPCとスマホで大差

11〜57 tok/s(Pixel 8 11 / MacBook Pro 57)

同じブラウザLLMでも、ハイエンドPCは数十tok/sで快適、低価格スマホは一桁台で待ちが出る。LLM体験は端末性能の影響が大きい(日本語はtok/sでなくchar/sで体感を測ること)。

LLMブラウザ
根拠(実機の一次データ): 端末ベンチ比較

電力あたりの性能はエッジ機が圧倒的に有利

要検証

実測FPS÷W:Pi+Hailo ~5.0 / Jetson ~3.8 / RTX4060 ~0.2

物体検出の実測FPSを消費電力で割ると、Pi5+Hailo(8W)やJetson(15W)はデスクトップGPU(300W)より桁違いに電力効率が高い。常時稼働・現場設置ではエッジ専用機が効く(公称W使用・経験則)。

ハード選定実機
根拠(実機の一次データ): 実機ベンチ大全

連合学習はデータを出さず、毒データはゲートで棄却できる

精度を下げる更新は不採用(単調非減少ラチェット)

連合学習(FL)は端末のデータを送らずモデルだけを共有する。当ラボのFL実装はクライアント更新を品質ゲートで評価し、精度を下げる(悪意ある)更新を棄却。ブラウザで攻防を体験できる。

連合学習ブラウザ実機
根拠(実機の一次データ): 連合学習(FL)ガイド

量子化Q4は日本語品質を落とさずQ8より約1.5倍速い

要検証

qwen2.5:7b: Q4 165 / Q8 111 / fp16 65 char/s(簡体字いずれも0)

同一モデル(qwen2.5:7b)を量子化だけ変えてRTX A6000で実測。char/sはQ4_K_MがQ8_0の約1.49倍・fp16の約2.52倍。簡体字混入は3精度ともゼロ、かな比率0.67〜0.71で日本語として自然。文字レベルの日本語品質は量子化で崩れず、速度はQ4が有利(推論の正答率は別軸・要検証)。

LLM日本語実機
根拠(実機の一次データ): 日本語LLMは char/s で測れ(量子化別 実測)

Whisperは実時間の17〜35倍速で文字起こし(A6000)。turboが最速かつ最精度

要検証

27秒の日本語音声: turbo 34×(CER4.7%) / base 35×(5.5%) / small 17×(7.9%)

transformers の Whisper を RTX A6000(fp16) で実測。3モデルとも実時間の17〜35倍速(RTF 0.03〜0.06)で、large-v3-turboは最速クラスかつ最も正確。音声認識はLLM生成より軽く、エッジでも実用十分。※CERは27秒1クリップ(クリーンな合成音声)の参考値・要検証。

音声実機日本語
根拠(実機の一次データ): 実機ベンチ大全(Whisper 実測)

端末 × タスク 実測マトリクス

ビジョン3タスクは FPS(高いほど滑らか)、チャットAIは tok/s緑=快適(≥50fps)橙=実用(≥25)赤=要工夫★=推定値(実測前)。

端末物体検出ポーズ推定画像分類チャットAI
💻 MacBook Air M3Apple M3 (18 TOPS)57 fps54 fps60 fps35 tok/s
💻 MacBook Pro M4 ProApple M4 Pro (38 TOPS)60 fps60 fps60 fps57 tok/s
🖥️ Windows PC (RTX 4060)RTX 4060 (232 TOPS)60 fps60 fps60 fps52 tok/s
📱 iPhone 15 ProA17 Pro (35 TOPS)47 fps42 fps57 fps20 tok/s
📱 Galaxy S24Snapdragon 8 Gen 3 (45 TOPS)42 fps37 fps54 fps16 tok/s
📱 Pixel 8Tensor G3 (10 TOPS)30 fps26 fps45 fps11 tok/s
📱 iPad Air M2Apple M2 (15 TOPS)54 fps50 fps59 fps30 tok/s
Jetson Orin Nano Super実機所有Ampere GPU (67 TOPS)57 fps55 fps60 fps27 tok/s
🧠 RPi 5 + AI HAT+実機所有Hailo-8L (13 TOPS)40 fps32 fps47 fps非対応
🖥️ Raspberry Pi 5実機所有BCM2712 (CPU only)7 fps5 fps12 fps2 tok/s
🔌 Coral USB Accelerator実機所有Edge TPU (4 TOPS)25 fps20 fps35 fps非対応

★ Coral USBは公称ベースの推定値(実測準備中)。その他は実機実測。ビジョンは MediaPipe/COCO-SSD 系、チャットAIは小型LLMをブラウザ/各バックエンドで計測。 機種間の絶対比較は同一モデルでの再測が前提(経験則・要検証)。

日本語LLM 実測(char/s)

日本語ユーザーが体感するのは「1秒あたり何文字」。tok/sは日本語の実速度を約3.5倍過大に見せます(→ char/sで測れ)。

デバイスモデルtok/schar/s(日本語)
ノートPC RTX 4060 (GPU)qwen2.5:0.5B325520
ノートPC RTX 4060 (GPU)qwen2.5:7B5281
Mac mini M4 (Metal)qwen2.5:0.5B154234
Mac mini M4 (Metal)qwen2.5:7B22.534
Jetson Orin Nanoqwen2.5:1.5B3556
Raspberry Pi 5 (CPU)qwen2.5:1.5B1118

LLM: GPU vs CPU(tok/s)

機 / モデルGPUCPU倍率
ノートPC RTX 40600.5B320115×2.8
ノートPC RTX 40603B10727×4.0
ノートPC RTX 40607B5213×4.2
ノートPC RTX 406014B13.96.4×2.2
Mac mini M40.5B157138×1.1
Mac mini M47B22.415.6×1.4
Mac mini M414B11.77.1×1.7
Jetson Orin Nano0.8B9.29.9×0.9
Jetson Orin Nano2B7.011.3×0.6
Raspberry Pi 51.5B11.4

NPU: Hailo-10H ビジョンFPS

モデルタスクFPS
YOLOv11m物体検出71
YOLOv8m物体検出76
YOLOv8s-pose姿勢推定157
ResNet-50画像分類308

NPUはビジョン専用でLLM不可。詳細は Hailoレビュー

事実を確認できたら、次は自分の条件で最適な構成を選びましょう。

② 比較・選定へ進む(30秒の診断)→

自己レビュー(限界・要検証)

  • 数値はすべて当ラボ/訪問端末の実測に紐づくが、版・量子化・入力サイズ・前後処理・OEM電力設計で変動する(同一条件での追試を推奨)。
  • device×taskのCoral USBは公称ベースの推定値(★)。機種間のtok/s絶対比較は同一モデルでの再測が前提。
  • ブラウザ実測(telemetry)は公開直後はサンプルが少なく参考値。訪問が増えるほど精度が上がる。
  • 「黙読7〜10字/秒」等は経験則(要検証)。簡体字検出は例示集合のため網羅は要拡張。