CUDAなしでAIを動かす完全ガイド
NVIDIA GPUがなくてもAIは動きます。CPU・ブラウザ・NPU・AMD GPUという4つの道を、必要RAMの目安・実測値・今すぐ試せる実機デモとともに解説します。
この記事の要点(30秒で理解)
- 🚫
CUDAはNVIDIA GPU専用の計算基盤の名前であって、AIを動かす唯一の方法ではない。現在はベストの方法ではあるが、CUDAにしばられず、LLMのチャット・音声の文字起こし・画像認識はいまやNVIDIA GPUなしで実用レベルに動く。
- 🛣️
道は大きく4つ。①CPU推論(llama.cpp / Ollama / whisper.cpp + GGUF量子化)②ブラウザ(WebGPU — 2026年に主要ブラウザが出揃った)③NPU・エッジアクセラレータ(Hailo / Apple Silicon / Intel)④AMD等のGPU(Vulkanバックエンド)。
- 📏
成否を分けるのはGPUの有無よりモデル選び。「パラメータ数 × 量子化」で必要RAMが決まる(例: 7BのQ4量子化 ≈ 4〜5GB)。小さく始めて上げていくのが鉄則。
証拠から先に: このサイトの60本超のデモは全部CUDAなしで動いています
LLMチャットもWhisper文字起こしも物体検出も、あなたのブラウザの中(WebGPU/WASM)だけで実行。 NVIDIA GPUどころかインストールも不要です。読み進める前に1本触ってみるのが最短の理解です。
そもそもCUDAとは — 「AIにNVIDIAが必須」ではない
CUDAはNVIDIA製GPU専用の並列計算プラットフォームです。 AI研究の主流環境として広まり、性能とエコシステムの厚みでは現在もCUDAがベストの選択肢であることは率直に認めるべき事実です。 ただし、それは「CUDAがなければAIが動かない」こととは違います。 推論(できあがったモデルを動かすこと)に限れば、量子化という軽量化技術と、 CPU・内蔵GPU・NPUを活かす推論エンジンの成熟により、日常的なAI利用はNVIDIA GPUなしで成立するようになりました。
代表格のllama.cppは「GPU不要」を看板に掲げ、 量子化済みモデル(GGUF形式)を一般的なCPU(Intel / AMD / Apple Silicon)で実行できます。 さらにMetal(Apple)・Vulkan(AMD/Intel等のGPU)・ROCm(AMD)といった 非CUDAバックエンドも公式にサポートしています(根拠: llama.cpp公式リポジトリ)。
CUDAなしの4つの道
手元の機材と目的で選びます。迷ったら「②ブラウザで体験 → ①CPUで常用」の順がおすすめです。
① CPU推論 — いちばん確実な道
- ツール
- llama.cpp / Ollama / whisper.cpp(GGUF量子化)
- 機材
- ふつうのPC(Intel / AMD / Apple)
- 速度感
- 7B級LLMで毎秒3〜8トークン目安(8コア級CPU)
- 向き
- プライバシー重視のローカルLLM・文字起こし
② ブラウザ — インストールすら不要
- ツール
- WebLLM / Transformers.js / ONNX Runtime Web / TensorFlow.js
- 機材
- WebGPU対応ブラウザ(Chrome / Edge / Safari / Firefox)
- 速度感
- 内蔵GPUを活用。ネイティブ比8割程度の報告も
- 向き
- 配布・体験・デモ(当サイトの全デモがこの方式)
③ NPU・エッジアクセラレータ
- ツール
- Hailo-8L/10H / Apple Silicon(Metal・MLX)/ Intel OpenVINO
- 機材
- Raspberry Pi + AI HAT / Mac / Intel Core Ultra
- 速度感
- 物体検出なら数十fps・数W級の電力で
- 向き
- 24時間動かすエッジAI・組み込み
④ AMD・Intel GPU(Vulkan等)
- ツール
- llama.cpp(Vulkan / HIP / SYCLバックエンド)
- 機材
- Radeon / Intel Arc / 内蔵GPU
- 速度感
- VRAM容量しだいでCPUより大幅高速
- 向き
- ゲーミングPC(非NVIDIA)の活用
根拠: CPU速度目安は Ollamaシステム要件の検証記事(7Bで毎秒3〜8トークン)。WebGPUは2026年1月に主要ブラウザで出揃いました( web.dev)。ブラウザ推論の「ネイティブ比8割」は WebLLMの解説記事の報告値です。
成否を分けるのはモデル選び — 量子化とRAMの早見表
LLMをCUDAなしで動かすときの実際の壁はメモリです。 「Q4量子化でパラメータ数の約0.6〜0.7倍のGB」が当サイトの経験則(要検証)。下の表から自分のPCで動く級を選んでください。
| モデル規模 | Q4量子化の目安サイズ | 動かせる機材の目安 | 向く用途 |
|---|---|---|---|
| 1B級 | 約1〜1.5GB | Raspberry Pi 5 / 古いノートPCでも | 簡単な指示・分類・補完 |
| 3〜4B級 | 約2〜3GB | メモリ8GBのPC | 日常的なチャット・要約の入門 |
| 7〜8B級 | 約4〜5GB | メモリ16GBのPC(実用ライン) | 実用チャット・翻訳・コード補助 |
| 13〜14B級 | 約8〜9GB | メモリ32GB推奨。CPUでは忍耐が必要 | 品質重視のローカル作業 |
| 70B級 | 約40GB超 | CPU推論は非現実的。複数GPU級の領域 | ローカルでは上級者向け |
※ サイズはモデル・量子化方式(Q4_K_M等)で前後します。実行時はこれに加えてコンテキスト分のメモリが必要です。経験則(要検証)。
机上の表で終わらせない — 当ラボの実機で実測した(2026-06-13)
計測条件: Ollama API・Q4系量子化・200トークン生成時の生成速度(eval rate)。すべてこの記事を書いた当日に実測した一次データです。
| 機材 | モデル | 生成速度(実測) | 体感 |
|---|---|---|---|
| デスクトップPC Core Ultra 9 285K / 128GB (CPU専用実行・GPU不使用) | Qwen3.5 4B | 16.1 tok/s | 読む速度より速い。常用可 |
| LFM2.5 8B | 43.2 tok/s | 8Bなのに4Bより速い(後述) | |
| Qwen3.6 35B-A3B(MoE) | 18.6 tok/s | 35B級がCPUで読める速度 | |
| Raspberry Pi 5 8GB / CUDAなし機の代表 | Gemma3 1B | 11.5 tok/s | 実用域。Piの主力はこの級 |
| Qwen3.5 2B | 3.8 tok/s | 待てる人向け | |
| Qwen3.5 4B | 2.2 tok/s | 対話は厳しい。バッチ処理向き | |
| Jetson Orin Nano 8GB ※CUDA側の参考(視覚AI) | ResNet50(TensorRT FP16) | 510 fps / 18.9W | 観測ノート#2で詳細 → |
| 同PC + RTX A6000 ※CUDA側の参考値 | Qwen3.5 4B / LFM2.5 8B | 131.6 / 299.3 tok/s | やはりCUDAは速い(CPU比約8倍) |
実測から言える実用的な結論
- 速度はパラメータ数だけでは決まらない。LFM2.5 8B(実体は8B中アクティブ1BのMoE)は、同条件のQwen3.5 4B(密モデル)より2.7倍速かった。 「何Bか」だけでなく「密かMoEか・CPU向きの設計か」をモデル選びの軸に加えるべき。
- MoEは大容量RAM搭載PCの切り札。35B級MoE(アクティブ3B)が18.6 tok/sで動いた。メモリさえ積めば(23GB常駐)、 GPUなしでも大型モデル級の品質に手が届く。
- 体感の分水嶺は約10 tok/s。これを超えると「読みながら待てる」。Pi 5は1B級が主戦場で、4Bは対話よりも夜間バッチ(要約・分類)に回すのが現実的。
- スマホは未実測(正直に)。手元実測はまだだが、当サイトのブラウザデモ(WebGPU)がスマホで動くこと自体が「CUDAなしで動く」一番手軽な確認方法。 端末ごとの実測は今後の観測ノートで追加予定。
- Pi Zero級(数百MB RAM)はLLMの土俵外。無理に載せず、センサーノード(データ収集役)として使うのが適材適所。
用途別レシピ — ローカル派とブラウザ派、それぞれの最短ルート
右端の「いま試す」は当サイトの実物デモ。CUDAなし(ブラウザ内推論)でそのまま動きます。
| やりたいこと | ローカルアプリ派 | ブラウザ派 | いま試す |
|---|---|---|---|
| LLMチャット | Ollama(コマンド1つ・CPUでも可) | WebLLM(Qwenをブラウザで) | Qwenブラウザチャット → |
| 音声の文字起こし | whisper.cpp(CPUのみでOK) | Transformers.js版Whisper | Whisper文字起こし → |
| 画像認識・物体検出 | ONNX Runtime / OpenVINO | TensorFlow.js / MediaPipe | 物体検出 → |
| 翻訳・要約 | Ollama + 多言語モデル | Transformers.js(FuguMT等) | AI翻訳 → |
| 姿勢・動作の認識 | MediaPipe(CPUで軽快) | MediaPipe Tasks | 転倒検知見守り → |
文字起こしの実測例: whisper.cpp(mediumモデル・Core i5-1135G7・CPUのみ)で10分の音声を約19分で処理という報告があります(根拠: Qiita実測記事)。会議録の後処理なら十分実用です。
正直な注意点 — CUDAなしに向かない仕事
⚠️ 学習(トレーニング)は別世界
本記事の対象は推論です。モデルの本格的な学習・ファインチューニングは依然としてNVIDIA GPUが主戦場で、 CUDAなし環境で挑むのは(不可能ではないものの)推奨しません。
⚠️ NPUの対応状況は発展途上
Intel NPU等は対応が進行中で、たとえばwhisper.cppのOpenVINOバックエンドでNPU実行はエラー報告が残っています(根拠: whisper.cpp Issue #2929)。NPUは「対応済みの組み合わせを選んで使う」のが現状の正解です。
⚠️ 大型モデルのリアルタイム応答
13B超のLLMをCPUで秒間数十トークン出すことはできません。大型モデルの高速応答が業務要件なら、 GPUサーバーかAPI利用が現実解です。「何をローカルに残し、何を外に出すか」の設計が大事です。
✅ それでも十分な領域が広い
文字起こしの後処理、定型文書の下書き、画像の分類・検出、見守りのような常時推論—— 現場業務のAI活用の多くは7B級以下+専用モデルで足ります。ここがCUDAなしの主戦場です。
「CUDAなしの実機」が動いている様子を公開中
当サイトの「エッジAI観測所」では、CUDA非搭載のRaspberry Pi 5と、対照としてCUDA搭載のJetson Orin Nanoを 自宅ラボで実際に稼働させ、温度・消費電力をリアルタイム配信しています。 スペック表の比較ではなく、動いている実物で判断材料を提供します。
📡 エッジAI観測所を見るよくある質問
Q. GPUなしだと、どれくらい遅いのですか?
モデル次第です。7B級LLMのQ4量子化なら8コア級CPUで毎秒3〜8トークン(ゆっくり読める速度)が海外検証の目安です。音声認識は、whisper.cppのmediumモデルをCore i5ノートで動かして音声実時間の約1.9倍という実測報告があります。リアルタイム性が必要なければ十分実用です。
Q. MacにはNVIDIA GPUがありませんが、AIは動きますか?
動きます。むしろApple Silicon(M1〜M4)はCUDA不要勢の優等生です。llama.cppはMetalバックエンドでGPU部分を自動活用し、ユニファイドメモリのおかげで大きめのモデルも載せやすい構成です。whisper.cppもmacOSで定番になっています。
Q. スマホでも動きますか?
ブラウザ経由が現実解です。WebGPUはiOS 26のSafari・Androidの Chromeで利用でき、当サイトのデモの多く(画像分類・姿勢推定・翻訳など)はスマホのブラウザでそのまま動きます。アプリを入れない分、試すハードルは最も低い方法です。
Q. JetsonはCUDAなしに含まれますか?
含まれません。JetsonはNVIDIA製でCUDAを搭載しています(むしろCUDAが動く最安級のエッジ機です)。本記事は「NVIDIA以外で動かす」話で、Raspberry Pi + Hailoのような構成がCUDAなし側の代表です。当サイトの観測所ではCUDAありのJetsonとCUDAなしのRaspberry Pi 5を並べてライブ比較できます。
Q. 結局、何から始めるのが正解ですか?
①まず当サイトのブラウザデモでインストールなしに体験(いますぐ・無料)②次にOllamaを入れて3B級モデルでローカルLLMを体験 ③物足りなくなったら7B級+メモリ16GB、または Raspberry Pi + AI HATのようなNPU構成へ。この順なら無駄な出費がありません。