症状別・原因→対処

エッジAIが動かない・遅い・落ちる

Q: WebGPUで動かない／WASM(CPU)に落ちて遅い

考えられる原因: モバイルGPUのWebGPUサポートが断片化している（対応外のGPU命令）／ブラウザ/OSが未対応・古い／GPUはあるがアダプタ取得に失敗（no-adapter）。対処: ブラウザ（Chrome/Safari/Edge）とOSを最新に更新する／下の自己診断ボタンで自端末のWebGPU対応を確認する／🟢軽量モデル（<50MB）のデモに切り替える（WASMでも実用速度）／可能ならWebGPU対応のPCで試す。

Q: タブが落ちる・クラッシュする／端末が熱くなる

考えられる原因: 🔴PC専用（200MB超）モデルをスマホで実行している／WASM(CPU)で重い処理を続け、メモリ不足・発熱（サーマルスロットリング）／古い/低メモリ端末でWebGPU非対応のまま重いデモを実行。対処: モデルサイズ凡例を確認し、🔴はPCで・🟢軽量をスマホで／他タブ/他アプリを閉じてメモリを空ける／連続実行を避け、端末を冷ましてから再試行する／WebGPUが有効な端末・ブラウザに切り替える。

Q: 推論が「思ったより遅い」

考えられる原因: 日本語で tok/s と char/s を混同している（日本語の体感は約1/3.5）／GPUが使われずCPU/WASM実行になっている／統合メモリ機（Mac/Jetson）でGPU優位が出にくい／モデルが大きく、VRAMを超えて逆に低下している。対処: 日本語は char/s の期待値で評価する（Pi5でも約18 char/s＝黙読より速い）／WebGPU/GPUが有効か自己診断で確認する／モデルを小さく（量子化・サイズダウン）してVRAMに収める／用途次第ではCPUでも実用圏（小型LLM・軽量ビジョン）。

Q: ローカルLLMが英語/中国語で返る・簡体字が混じる

考えられる原因: 日本語の指示を与える前は別言語で出力するモデルがある／thinking型モデルが思考を別言語で行い、回答が空・混在する／ブラウザ内の強く量子化された小型モデルは崩れやすい。対処: 「日本語で答えてください」と明示的に指示する／thinkingを無効化、または別モデルに替える／量子化を緩める／モデルサイズを上げる。

Q: NPU（Hailo/Coral）を積んだのにLLMが動かない

考えられる原因: Coral（Edge TPU）とHailo-8Lはビジョン専用で、GGUF形式のLLMは動かせない／Hailo-10H(AI HAT+2)でも、汎用のOllama/llama.cppはGGUF形式のためNPUを使わずCPU実行になる（「動かない」のではなくNPUが使われていないだけ）。対処: LLM（生成）は基本はGPU/CPUで動かす（Pi5はCPUで約11 tok/s）／Hailo-10H(AI HAT+2)限定で、Hailo公式のGenAI専用ツール『hailo-ollama』を使えばNPU上でLLMを動かせる（apt: hailo-gen-ai-model-zoo）。ただし実測ではCPUより速いとは限らない（モデル次第・実測はレビュー参照）／NPUの疑いようのない得意分野はYOLO等のビジョン推論（高FPS・低電力）／ビジョン＋LLMを同時に使うなら、NPU=ビジョン／CPU・GPU=LLM の役割分担構成が無難。

Q: hailo-ollama で「model not found」「500 Internal Server Error」になる

考えられる原因: リクエストに `Content-Type: application/json` ヘッダが無いと、hailo-ollamaのAPI(oatpp製)が本文をデシリアライズできず500を返す／`hailo-gen-ai-model-zoo`パッケージのモデルはmanifestとして存在するだけで、初回は `/api/pull` で明示的に取り込むまで `/api/generate`・`/api/chat` から『model not found』になる／`/api/generate`（補完形式）はチャット用にチューニングされたモデルだとテンプレートが合わず出力が崩れやすい。`/api/chat`（messages形式）の方が応答品質が安定する。対処: curlで叩く場合は必ず `-H 'Content-Type: application/json'` を付ける／使う前に `curl -X POST :8000/api/pull -d '{"model":" "}'` で明示的にpullしてから generate/chat を呼ぶ／補完ではなく `/api/chat` に `messages:[{role:"user",content:...}]` で投げる／既定ポートは8000（一般的なOllamaの11434とは別）。素のOllamaと共存させる場合はポート重複に注意。

Q: カメラ・マイクが使えない（デモが反応しない）

考えられる原因: ブラウザのカメラ/マイク権限が未許可／HTTP（非https）ページで実行している／他アプリ/他タブがカメラを占有している。対処: アドレスバーの権限アイコンから「許可」に変更する／https（または localhost）で開く／カメラを使う他アプリ・他タブを閉じてからページを再読込。

Q: モデルの初回ロードが長い・途中で止まる

考えられる原因: 🟡中量（50〜200MB）モデルのダウンロードに時間がかかる／回線が細い・不安定でDLが完了しない／キャッシュが効かず毎回ダウンロードしている。対処: 初回はWi-Fi等の安定回線でダウンロードする／サイズ凡例で🟢軽量を選ぶ（初回ロードが短い）／再読込でブラウザキャッシュを利用する（2回目以降が速い）。

Q: GPUを積んだのに期待ほど速くならない

考えられる原因: 統合メモリ（Mac/Jetson）はCPUと帯域を共有しGPU優位が小さい（≦1〜1.7倍）／VRAMを超えるモデルで逆に低下している／バッチ1の単発推論はメモリ帯域律速で倍率が伸びない。対処: メモリ構成を確認（専用VRAMか統合か）。専用VRAM機ほど効く／モデルをVRAMに収まるサイズへ（量子化・縮小）／用途次第ではCPUで十分（Pi5の日本語LLMも実用圏）。

Q: Chrome内蔵AI（Gemini Nano）/ Prompt APIが使えない

考えられる原因: Chromeのバージョンが古い・対応OS外（デスクトップ版が必要）／オリジントライアル/フラグが未設定／モデル（Gemini Nano）のバックグラウンドDLが未完了。対処: Chromeを最新の安定版に更新する（デスクトップ推奨）／chrome://flags で Prompt API / on-device model を有効化し再起動／数分待ってモデルのダウンロード完了後に再試行する。

ブラウザAIデモやローカルLLMがうまく動かないとき、症状から原因→対処をたどれます。まず自己診断で端末を判定し、該当する症状へ。対処は当サイトの実機ベンチ・訪問端末の匿名実測に紐づいています。

まず自己診断：この端末はどう動く？

ボタンでこの端末のWebGPU対応を判定し、該当する症状へ案内します（収集に同意済みの場合だけ、粗い端末動作集計にも反映）。

症状から探す

🚫WebGPUで動かない／WASM(CPU)に落ちて遅い 💥タブが落ちる・クラッシュする／端末が熱くなる 🐢推論が「思ったより遅い」🈶ローカルLLMが英語/中国語で返る・簡体字が混じる 🧠NPU（Hailo/Coral）を積んだのにLLMが動かない ⚙️hailo-ollama で「model not found」「500 Internal Server Error」になる 📷カメラ・マイクが使えない（デモが反応しない）⏳モデルの初回ロードが長い・途中で止まる 🤔GPUを積んだのに期待ほど速くならない 💎Chrome内蔵AI（Gemini Nano）/ Prompt APIが使えない 🎙️音声認識（Whisper等）の精度が低い・雑音を拾う 🧱「out of memory」で大型モデルが読み込めない 🏢社内ネットワーク（プロキシ/FW）でモデルDLがブロックされる

🚫WebGPUで動かない／WASM(CPU)に落ちて遅い

考えられる原因

モバイルGPUのWebGPUサポートが断片化している（対応外のGPU命令）
ブラウザ/OSが未対応・古い
GPUはあるがアダプタ取得に失敗（no-adapter）

対処（上から順に）

ブラウザ（Chrome/Safari/Edge）とOSを最新に更新する
下の自己診断ボタンで自端末のWebGPU対応を確認する
🟢軽量モデル（<50MB）のデモに切り替える（WASMでも実用速度）
可能ならWebGPU対応のPCで試す

根拠・詳しく: WebGPU対応マトリクス（端末別の実測） →

💥タブが落ちる・クラッシュする／端末が熱くなる

考えられる原因

🔴PC専用（200MB超）モデルをスマホで実行している
WASM(CPU)で重い処理を続け、メモリ不足・発熱（サーマルスロットリング）
古い/低メモリ端末でWebGPU非対応のまま重いデモを実行

対処（上から順に）

モデルサイズ凡例を確認し、🔴はPCで・🟢軽量をスマホで
他タブ/他アプリを閉じてメモリを空ける
連続実行を避け、端末を冷ましてから再試行する
WebGPUが有効な端末・ブラウザに切り替える

根拠・詳しく: 検証DB（ブラウザ実測でクラッシュ率も集計） →

🐢推論が「思ったより遅い」

考えられる原因

日本語で tok/s と char/s を混同している（日本語の体感は約1/3.5）
GPUが使われずCPU/WASM実行になっている
統合メモリ機（Mac/Jetson）でGPU優位が出にくい
モデルが大きく、VRAMを超えて逆に低下している

対処（上から順に）

日本語は char/s の期待値で評価する（Pi5でも約18 char/s＝黙読より速い）
WebGPU/GPUが有効か自己診断で確認する
モデルを小さく（量子化・サイズダウン）してVRAMに収める
用途次第ではCPUでも実用圏（小型LLM・軽量ビジョン）

根拠・詳しく: 日本語LLMは char/s で測れ →

🈶ローカルLLMが英語/中国語で返る・簡体字が混じる

考えられる原因

日本語の指示を与える前は別言語で出力するモデルがある
thinking型モデルが思考を別言語で行い、回答が空・混在する
ブラウザ内の強く量子化された小型モデルは崩れやすい

対処（上から順に）

「日本語で答えてください」と明示的に指示する
thinkingを無効化、または別モデルに替える
量子化を緩める／モデルサイズを上げる

根拠・詳しく: 日本語に中国語は混じる？（9モデル実測） →

🧠NPU（Hailo/Coral）を積んだのにLLMが動かない

考えられる原因

Coral（Edge TPU）とHailo-8Lはビジョン専用で、GGUF形式のLLMは動かせない
Hailo-10H(AI HAT+2)でも、汎用のOllama/llama.cppはGGUF形式のためNPUを使わずCPU実行になる（「動かない」のではなくNPUが使われていないだけ）

対処（上から順に）

LLM（生成）は基本はGPU/CPUで動かす（Pi5はCPUで約11 tok/s）
Hailo-10H(AI HAT+2)限定で、Hailo公式のGenAI専用ツール『hailo-ollama』を使えばNPU上でLLMを動かせる（apt: hailo-gen-ai-model-zoo）。ただし実測ではCPUより速いとは限らない（モデル次第・実測はレビュー参照）
NPUの疑いようのない得意分野はYOLO等のビジョン推論（高FPS・低電力）
ビジョン＋LLMを同時に使うなら、NPU=ビジョン／CPU・GPU=LLM の役割分担構成が無難

根拠・詳しく: Hailo-10Hレビュー（GenAI実測・用途の住み分け） →

図解：同じ「LLMに質問する」でも、ツールで行き先が変わる

💬 LLMへの質問

（Raspberry Pi 5 + AI HAT+2）

汎用ツール

Ollama / llama.cpp（GGUF）

🖥️ CPU実行

NPU（Hailo-10H）は使われない

Hailo公式ツール

hailo-ollama

🧠 Hailo-10H NPU実行

実測: モデル次第でCPUより速い/遅い

「Hailo＝ビジョン専用でLLMは動かせない」は汎用ツール経由の場合の話。 Hailo公式のGenAI専用ツールを使えば、Hailo-10H(AI HAT+2)限定でNPU上のLLM推論もできる。

⚙️hailo-ollama で「model not found」「500 Internal Server Error」になる

考えられる原因

リクエストに `Content-Type: application/json` ヘッダが無いと、hailo-ollamaのAPI(oatpp製)が本文をデシリアライズできず500を返す
`hailo-gen-ai-model-zoo`パッケージのモデルはmanifestとして存在するだけで、初回は `/api/pull` で明示的に取り込むまで `/api/generate`・`/api/chat` から『model not found』になる
`/api/generate`（補完形式）はチャット用にチューニングされたモデルだとテンプレートが合わず出力が崩れやすい。`/api/chat`（messages形式）の方が応答品質が安定する

対処（上から順に）

curlで叩く場合は必ず `-H 'Content-Type: application/json'` を付ける
使う前に `curl -X POST :8000/api/pull -d '{"model":"<name>"}'` で明示的にpullしてから generate/chat を呼ぶ
補完ではなく `/api/chat` に `messages:[{role:"user",content:...}]` で投げる
既定ポートは8000（一般的なOllamaの11434とは別）。素のOllamaと共存させる場合はポート重複に注意

根拠・詳しく: Hailo-10Hレビュー（セットアップ手順） →

📷カメラ・マイクが使えない（デモが反応しない）

考えられる原因

ブラウザのカメラ/マイク権限が未許可
HTTP（非https）ページで実行している
他アプリ/他タブがカメラを占有している

対処（上から順に）

アドレスバーの権限アイコンから「許可」に変更する
https（または localhost）で開く
カメラを使う他アプリ・他タブを閉じてからページを再読込

⏳モデルの初回ロードが長い・途中で止まる

考えられる原因

🟡中量（50〜200MB）モデルのダウンロードに時間がかかる
回線が細い・不安定でDLが完了しない
キャッシュが効かず毎回ダウンロードしている

対処（上から順に）

初回はWi-Fi等の安定回線でダウンロードする
サイズ凡例で🟢軽量を選ぶ（初回ロードが短い）
再読込でブラウザキャッシュを利用する（2回目以降が速い）

🤔GPUを積んだのに期待ほど速くならない

考えられる原因

統合メモリ（Mac/Jetson）はCPUと帯域を共有しGPU優位が小さい（≦1〜1.7倍）
VRAMを超えるモデルで逆に低下している
バッチ1の単発推論はメモリ帯域律速で倍率が伸びない

対処（上から順に）

メモリ構成を確認（専用VRAMか統合か）。専用VRAM機ほど効く
モデルをVRAMに収まるサイズへ（量子化・縮小）
用途次第ではCPUで十分（Pi5の日本語LLMも実用圏）

根拠・詳しく: “GPUは10〜20倍速い”は嘘？ →

💎Chrome内蔵AI（Gemini Nano）/ Prompt APIが使えない

考えられる原因

Chromeのバージョンが古い・対応OS外（デスクトップ版が必要）
オリジントライアル/フラグが未設定
モデル（Gemini Nano）のバックグラウンドDLが未完了

対処（上から順に）

Chromeを最新の安定版に更新する（デスクトップ推奨）
chrome://flags で Prompt API / on-device model を有効化し再起動
数分待ってモデルのダウンロード完了後に再試行する

根拠・詳しく: Chrome内蔵AI活用ガイド →

🎙️音声認識（Whisper等）の精度が低い・雑音を拾う

考えられる原因

環境ノイズが多い・マイクが遠い／低品質
強く量子化された小型モデルで精度が落ちている
言語設定が未指定で誤認識している

対処（上から順に）

静かな環境で、マイクを口元に近づける
ノイズ除去デモで前処理する／外部マイクを使う
より大きいモデルに切り替え、言語（日本語）を明示する

根拠・詳しく: ノイズ除去デモ →

🧱「out of memory」で大型モデルが読み込めない

考えられる原因

🔴PC専用（200MB超）モデルを低メモリ端末で開いている
タブを多数開いてメモリが枯渇している
古い端末・ブラウザのメモリ上限

対処（上から順に）

🟢軽量／🟡中量モデルのデモに切り替える
他タブ・他アプリを閉じてから再読込する
メモリの大きい端末・PCで開く

根拠・詳しく: 検証DB（端末×タスクで可否を確認） →

🏢社内ネットワーク（プロキシ/FW）でモデルDLがブロックされる

考えられる原因

企業プロキシが Hugging Face / CDN への通信を遮断している
SSL検査（中間証明書）でモデル取得が失敗する
オフライン環境でCDNに到達できない

対処（上から順に）

情シスにモデル配布元ドメイン（CDN/HF）の許可を依頼する
モデルを社内ミラーにセルフホストして配信する
オフライン前提なら事前キャッシュ／同梱の構成を検討する

根拠・詳しく: エッジMLOps／運用（社内導入の設計） →

② そもそも機種が合っていないかも

比較・選定で条件に合う構成を確認

① 実測の事実を確認する

検証DBで「何がどれだけ動くか」を一覧

現場で再現しない・切り分けたい

「自社の端末・現場でだけ起きる遅さ／落ち」を、実機ベンチで原因切り分けからご支援します。

相談する（Link Field）

エッジAIが動かない・遅い・落ちる

まず自己診断：この端末はどう動く？

症状から探す

🚫WebGPUで動かない／WASM(CPU)に落ちて遅い

💥タブが落ちる・クラッシュする／端末が熱くなる

🐢推論が「思ったより遅い」

🈶ローカルLLMが英語/中国語で返る・簡体字が混じる

🧠NPU（Hailo/Coral）を積んだのにLLMが動かない

⚙️hailo-ollama で「model not found」「500 Internal Server Error」になる

📷カメラ・マイクが使えない（デモが反応しない）

⏳モデルの初回ロードが長い・途中で止まる

🤔GPUを積んだのに期待ほど速くならない

💎Chrome内蔵AI（Gemini Nano）/ Prompt APIが使えない

🎙️音声認識（Whisper等）の精度が低い・雑音を拾う

🧱「out of memory」で大型モデルが読み込めない

🏢社内ネットワーク（プロキシ/FW）でモデルDLがブロックされる

関連

現場で再現しない・切り分けたい