CUDAなし×安いGPUでエッジAI — 予算別構成ガイド
NVIDIA以外の安いGPUでローカルLLM・エッジAIを組む。0円(いまのPCの内蔵GPU)から5万円まで、VRAMとモデル規模の対応・セットアップ手順・実際にハマった罠を実測つきで解説します。
この記事の要点(30秒で理解)
- 🔑
安いGPUでAIを動かす鍵はVulkan。llama.cppのVulkanバックエンドはNVIDIA・AMD・Intel・世代の古いGPUまで最も広くカバーし、ベンダーを選ばない「共通語」になっている。
- 📐
選定の軸は演算性能よりVRAM容量。Q4量子化なら「8GBで7〜8B級、10GBで13B級、12GBで14B級」が目安。安くてもVRAMが多いカードが勝つ。
- 💴
予算0円から始められる。いまのPCの内蔵GPU(Intel Xe / AMD APU)でもVulkanでLLMが動く(本記事で実測)。次の一手が中古Radeon・Intel Arcの2〜5万円帯。
安GPU戦略の核心 — なぜVulkanが「共通語」なのか
llama.cppのGPUバックエンドの勢力図は「CUDAが最速・ROCmはハイエンドAMDのLinuxで強い・Vulkanは最も広くどのベンダーでも動く」という整理が定着しています (根拠: バックエンド別ベンチ集計・llama.cpp公式Discussion)。 つまり「安いGPUを買う→Vulkanで動かす」が、ベンダーを問わない最小リスクの方程式です。
ドライバ側の進化も追い風です。AMDのオープンソースVulkanドライバ(RADV)は更新でプロンプト処理が 最大13%向上した報告があり(根拠: Hardware Corner)、Intel ArcもVulkanで「素直に動く」ことが確認されています(根拠: Intel Arc + llama.cpp検証記事)。性能を極めるならIntelはSYCL、AMD(対応機)はROCmという上積みもありますが、まずVulkanで動かして損はありません。
予算別おすすめの組み合わせ
鉄則は「演算性能よりVRAM容量」。 使いたいモデルのQ4量子化がVRAMに丸ごと載るかどうかで体験が決まります。
| 予算 | 組み合わせ | VRAM | 動くモデルの目安(Q4) | ひとこと |
|---|---|---|---|---|
| ¥0 | いまのPCの内蔵GPU(Intel Xe / AMD APU) | メインRAM共用(UMA) | 1〜8B級(RAM次第) | まず試す。本記事の実測はこの構成 |
| 〜2万円台 | 中古 Radeon RX 6600(8GB) | 8GB | 7〜8B級 Q4が快適圏 | 中古市場の定番。Vulkanで安定 |
| 3万円台 | Intel Arc B570(10GB・新品) | 10GB | 13B級 Q4まで視野 | $219で10GB。新品保証つきが強み |
| 5万円前後 | Intel Arc B580(12GB・新品) | 12GB | 14B級 Q4 + 余裕のコンテキスト | VRAM単価で最強クラス |
| (参考) | 中古 GeForce RTX 3060(12GB) | 12GB | 14B級 Q4 | CUDA側の対抗馬。中古3万円前後なら有力。フェアに言えば強い |
価格は変動します。Arc B570は希望小売$219・10GB/150W(根拠: マイナビ実機検証)、B580は12GBで「RTX 4060より安く高性能」を掲げて投入されました(根拠: GIGAZINE)。国内実売は 価格.comで要確認。中古価格は相場変動が大きいため購入時点で比較してください(経験則・要検証)。
実測 — 同じモデルをCPU・内蔵GPU・ハイエンドCUDAで動かすと(2026-06-13)
LFM2.5 8B(Q4系量子化・同一モデル)を当ラボのPC(Core Ultra 9 285K / 128GB / RTX A6000)で3方式比較。 内蔵GPUはllama.cpp Vulkan版で計測(まさに本記事の「0円構成」の手順そのまま)。
| 実行方式 | 生成速度(実測) | 読み解き |
|---|---|---|
| CPU(285K・24コア) | 43.2 tok/s | CPU効率特化モデルの本領 |
| 内蔵GPU(Intel Xe・Vulkan) | 25.0 tok/s | まさかのCPU負け(理由は下記) |
| RTX A6000(CUDA・参考) | 299.3 tok/s | 最速はやはりCUDA。価格は桁違い |
この実測の正直な学び
- 内蔵GPUは「常にCPUより速い」わけではない。LFM2.5 8Bは実体がアクティブ1BのMoEでCPUに極めて有利なうえ、内蔵GPUはCPUと同じDDR5メモリ帯域を共有するため、 生成速度では43.2 vs 25.0でCPUが勝った。
- 一方、プロンプト処理は内蔵GPUが強い(pp512で308.8 t/s)。 長い文書を読み込ませて短く答えさせる用途なら、内蔵GPUに分がある。
- だからこそ「0円で実測してから買う」が正解。同一モデル・同一マシンでも実行方式で速度は3〜10倍変わる。本記事の手順なら30分で自分の答えが出る。
- 計測条件の注記: CPU/A6000はOllama API(200トークン生成のeval rate)、内蔵GPUはllama-bench(tg128)。 方式が完全一致ではない参考比較である点は明記しておく。
セットアップ — llama.cpp Vulkan版を5分で動かす
ビルド不要・どのベンダーのGPUでも同じ手順。本記事の実測もこの手順で行いました。
llama.cppのVulkan版を入手
GitHubのReleasesから「llama-bXXXX-bin-win-vulkan-x64.zip」をダウンロードして展開するだけ。ビルド不要(約40MB)。
GGUFモデルを用意
Hugging Faceで「モデル名 + GGUF」を検索し、Q4_K_M等の量子化版をダウンロード。VRAM(または共用RAM)に収まるサイズを選ぶ。
GPUを確認
llama-bench.exe --list-devices で認識GPUを一覧表示。複数ある場合は環境変数 GGML_VK_VISIBLE_DEVICES で使うGPUを指定できる。
実行
llama-cli.exe -m モデル.gguf -ngl 99 で全層GPUオフロード実行。-ngl を減らすとVRAMに収まらない大きいモデルもCPUと分担で動く。
GUI派には Vulkan対応の LM Studio も選択肢。Linux×対応Radeonなら ROCm、Intelを極めるなら SYCL / OpenVINO が上積み候補です。
実際にハマった・ハマりやすい落とし穴
⚠️ Ollama血統のGGUFが読めないことがある
Ollamaで取得したモデルのGGUFを上流llama.cppに流用しようとしたところ、メタデータ非互換でロード失敗(本記事の検証中に実際に遭遇)。確実なのはHugging Faceから直接GGUFを取得すること。
⚠️ Intel ArcはResizable BAR必須
マザーボード側でResizable BAR(Smart Access Memory)が無効だとArc系は本来の性能が出ない。古いPCに増設する場合はBIOS対応を先に確認。
⚠️ ROCmは対応GPUが限られる
AMDの公式GPGPU基盤ROCmはLinux中心で対象GPUリストも限定的。安い中古Radeonで確実に動かすならVulkanバックエンドを第一候補にするのが無難。
⚠️ 電源・物理サイズ・中古リスク
Arc B570は150W級 — 古いスリムPCでは電源容量と補助電源コネクタを要確認。中古はファン劣化・保証なしのリスク込みで価格を判断する。
この記事で挙げた構成パーツを探す
予算別表の各カードと、CPU推論派向けのRAM増設・電源まわり。中古相場は変動が大きいので、楽天・Amazonの現在価格を見比べてから判断してください。
※ 上記リンクはアフィリエイトリンクです。購入により当サイトに収益が発生する場合があります。
補足: カメラ系(視覚AI)なら、そもそも安GPUすら要らないことが多い
LLMと違い、物体検出・姿勢推定などの視覚AIは軽量モデルが充実しており、 CPUや内蔵GPU、数千円〜のNPU(Raspberry Pi + AI HAT等)で実用速度が出ます。 当サイトのブラウザデモ群(物体検出・転倒検知・姿勢推定など)はその実証です。 「LLMは安GPU、視覚はNPUかCPU」という住み分けが、低予算エッジAIの現実解です。
よくある質問
Q. VRAMは何GBあれば足りますか?
動かしたいモデルで決まります。Q4量子化の目安で、7〜8B級なら8GB、13〜14B級なら10〜12GBです。VRAMからあふれた分はCPU側と分担できますが速度が大きく落ちるため、「使いたいモデルがVRAMに丸ごと載る」ことを基準にカードを選ぶのが失敗しないコツです。
Q. 内蔵GPUとCPU実行はどちらが速いのですか?
モデルとメモリ帯域次第で、内蔵GPUが常に速いとは限りません。本記事の実測では同一モデル(LFM2.5 8B)でCPU実行とIntel内蔵GPU(Vulkan)を比較しています。LLM推論はメモリ帯域がボトルネックになりやすく、内蔵GPUはCPUと同じメインメモリを使うため、劇的な差は出にくいのが実情です。まず0円で試して、足りなければdGPUに進むのが合理的です。
Q. 中古のRTX 3060(CUDA)と安い非NVIDIA、結局どちらが良いですか?
ソフトの互換性で最も楽をしたいなら中古RTX 3060 12GBは依然有力です(CUDA対応ツールがそのまま動く)。一方、新品保証・VRAM単価・AV1エンコードなどではArc B580が優位です。本サイトの立場は「どちらでも動く時代になった。手に入る安い方で始めて良い」です。
Q. ゲーム用に組んだRadeon搭載PCをそのまま使えますか?
使えます。llama.cppのVulkan版またはLM Studio(Vulkan対応のGUIアプリ)を入れるだけで、追加投資ゼロでローカルLLM環境になります。RX 6600以上なら7〜8B級Q4が実用速度で動く構成が多いはずです。