日本語 × 実機ベンチ

日本語LLMの速さは「char/s」で測れ

ローカルLLMの速度は tok/s で語られますが、日本語ユーザーには誤解のもとです。実機で測ると、同じ tok/s でも日本語は英語の約1/3.5の文字数しか出ません。なぜか、そして正しい測り方を、4機種の実測データで解説します。

結論

日本語のローカルLLMは tok/s ではなく char/s（1秒あたりの文字数）で比較すべきです。日本語は1トークン≈1.5文字（英語は≈5.5文字）なので、同じ tok/s でも日本語ユーザーが見る文字数は英語の約1/3.5。 tok/s だけ見ると実速度を過大評価します。

同じ tok/s でも、見える文字数は約1/3.5

RTX 4060ノート・qwen2.5:7b・同一プロンプト長で、英語と日本語を実測（どちらも 52 tok/s）。

言語	tok/s	char/s（文字/秒）	文字/トークン
英語	52	287	5.5
日本語	52	81	1.55

tok/s は同じ「52」でも、英語は秒間287文字・日本語は81文字。「50 tok/s 出ます」という宣伝は、日本語では実速度を約3.5倍大きく見せていることになります。

なぜ？トークナイザの「文字密度」

LLMはテキストを「トークン」という単位で処理します。英語は1トークンに平均5文字前後（"tion" など）が入りますが、日本語は漢字・かなで1トークンあたりの文字数が少なく（実測で約1.5文字）、さらに同じ内容を表すのに必要なトークン数も多くなりがちです。結果、tok/s が同じでも日本語は「出る文字」が少ない。だから日本語ユーザーは tok/s ではなく char/s を見るべきなのです。

実機の日本語 char/s（4機種）

デバイス	モデル	tok/s	char/s（日本語）
ノートPC RTX 4060 (GPU)	qwen2.5:0.5B	325	520
ノートPC RTX 4060 (GPU)	qwen2.5:7B	52	81
Mac mini M4 (Metal)	qwen2.5:0.5B	154	234
Mac mini M4 (Metal)	qwen2.5:7B	22.5	34
Jetson Orin Nano	qwen2.5:1.5B	35	56
Raspberry Pi 5 (CPU)	qwen2.5:1.5B	11	18

実用の目安：日本語の黙読は約7〜10文字/秒（経験則・要検証）。Pi 5(CPU)の約18文字/秒でも読む速さは超えており実用圏、ノートやMacは待ちほぼゼロ。全機種・モデルサイズ別・GPU vs CPU はエッジAI実機ベンチ大全に掲載。

量子化（Q4 / Q8 / fp16）で char/s と日本語品質はどう変わるか

同一モデル qwen2.5:7b を量子化だけ変えて実測（RTX A6000・同一和文プロンプト・num_predict=256）。速度はQ4が最速で、Q8の約1.5倍・fp16の約2.5倍。一方で簡体字の混入は3精度ともゼロ・かな比率も自然で、日本語の文字品質は量子化で崩れませんでした。＝日本語用途では「Q4で速く動かす」が現実的な最適解になりやすい。

精度（量子化）	char/s（日本語）	tok/s	文字/token	かな比率
Q4_K_M	165	112	1.47	0.69
Q8_0	111	74	1.50	0.67
fp16（無量子化）	65	42	1.56	0.71

実測: 2026-06、RTX A6000・Ollama /api/generate（num_predict=256・温度0.7・2回平均）。再現スクリプト scripts/bench-quant-charsec.mjs を公開。注意：本測定は「速度＋文字レベルの純度（簡体字・かな比率）」であり推論の正答率は別軸。深い推論タスクでは量子化が精度に影響し得ます（経験則・要検証）。簡体字検出は例示集合のため網羅は要拡張。

自分の環境で char/s を測る

Ollama を入れていれば、APIの返り値から計算できます（response の文字数 ÷ 生成時間）。

# 日本語プロンプトで生成し、char/s を算出（要 python3）
python3 - <<'PY'
import urllib.request, json
body=json.dumps({"model":"qwen2.5:7b",
  "prompt":"エッジAIとは何かを日本語でくわしく説明してください。",
  "stream":False,"options":{"num_predict":256}}).encode()
d=json.load(urllib.request.urlopen(urllib.request.Request(
  "http://127.0.0.1:11434/api/generate",body,{"Content-Type":"application/json"})))
dur=d["eval_duration"]/1e9; chars=len(d["response"])
print(f"tok/s={d['eval_count']/dur:.1f}  char/s={chars/dur:.1f}  文字/トークン={chars/d['eval_count']:.2f}")
PY

よくある質問

tok/s と char/s は何が違いますか？

tok/s は1秒あたりのトークン数、char/s は1秒あたりに画面へ出る文字数です。ユーザーが体感する速さは char/s。日本語は1トークンが約1.5文字（英語は約5.5文字）なので、同じ tok/s でも char/s は言語で大きく変わります。

なぜ日本語は同じ tok/s でも遅く感じるのですか？

トークナイザの違いです。実測では同一モデル(qwen2.5:7b)・同一機・同じ52 tok/s で、英語は約287文字/秒(5.5文字/トークン)、日本語は約81文字/秒(1.55文字/トークン)。日本語は1トークンに詰まる文字が少ないため、見える文字数が約1/3.5になります。

日本語で快適なのは何 char/s からですか？

日本語の黙読は概ね7〜10文字/秒（経験則・要検証）。それを上回れば「読む速さより速い」＝実用圏です。実測ではRaspberry Pi 5(CPU)でも約18文字/秒なので読む速さは超えており、ノートやMac(数十〜数百文字/秒)は待ち時間ほぼゼロでした。

量子化（Q4/Q8）で日本語の品質や速度はどう変わりますか？

qwen2.5:7bをRTX A6000で実測したところ、char/sはQ4_K_MがQ8_0の約1.5倍・fp16の約2.5倍と速く、簡体字の混入は3精度ともゼロ・かな比率も自然でした。少なくとも文字レベルの日本語品質は量子化で崩れず、速度はQ4が有利です。ただし推論の正答率は別軸で、深いタスクでは量子化が精度に影響し得ます（要検証）。

自分の環境の char/s を測るには？

Ollama のАPIを使います。/api/generate に日本語プロンプトを stream:false で投げ、返ってきた response の文字数 ÷ (eval_duration/1e9) で char/s が出ます。本記事末尾にコマンド例を載せています。