オンデバイスAIエージェント完全ガイド
端末内のLLM/VLMが「考えて、ツールを使い、操作する」。データを外に出さずに複数ステップのタスクをこなすオンデバイスAIエージェントの仕組み・種類・実例・課題を、エッジAIの実装者視点で解説します。
この記事の要点(30秒で理解)
- 🤖
オンデバイスAIエージェントは、端末内のLLM/VLMが推論にとどまらず「計画→ツール呼び出し・画面操作→観測」を繰り返し、複数ステップのタスクを自律的に実行するAI。
- 🔒
データを端末の外に出さずにエージェントが動くため、機密・オフライン・低コストが求められる現場(測量・建設・介護・自治体)と構造的に相性が良い。
- 🚀
2025年後半以降、小型でも実用的なエージェントが相次ぎ登場(Liquid AI LFM2.5・Microsoft Fara-7B・H Company Holo2)。端末完結のエージェントが現実的な選択肢になった。
「答えるAI」から「動くAI」へ
通常のLLMは「聞かれたら答える」までです。AIエージェントは、目標を与えると自分で手順を計画し、ツール(計算・検索・API・画面操作)を使い、結果を見て次の行動を決める—— という知覚→計画→行動→観測のループを回します。
オンデバイス(端末内)でこれを行うと、判断もツール実行もローカルで完結し、データを外部へ送りません。 当ラボの60本以上のデモが実証してきた「ブラウザ内で推論が完結する」エッジAIの思想を、単発の推論から、複数ステップの自律実行へ広げたものがオンデバイスエージェントです。
オンデバイスエージェントの種類
「何を操作するか」で大きく分かれます。いずれも2025年後半以降に端末で動く実例が出そろいました。
| 型 | 代表モデル | サイズ | 特徴 |
|---|---|---|---|
| ツール呼び出し型 | LFM2.5-230M(Liquid AI) | 230M | 端末内の小型LLMが関数(ツール)を構造化出力で呼び出し、データ抽出やAPI実行を行う。Raspberry Pi 5で約42 tok/sと軽量。 |
| コンピュータ操作型(CUA) | Fara-7B(Microsoft) | 7B | スクリーンショットを見て座標をクリック/入力するエージェント。平均約16ステップでタスクを完了し、決済前に停止する安全機構を内蔵(MIT)。 |
| GUIエージェント | Holo2-4B(H Company) | 4B | Web/デスクトップ/モバイルを横断してUI要素を位置特定・操作する軽量VLMエージェント(Apache 2.0)。 |
| ローカル検索エージェント | Jan-v1-4B(Menlo Research) | 4B | 端末上でWeb検索+深掘り調査を行うエージェント特化モデル。SimpleQA 91%でローカルのPerplexity代替を狙う(Apache 2.0)。 |
※ 各モデルの実例・出典は当ラボの月刊エッジAIリソース(2025年11月号以降)で随時更新。
現場での活用
「データを外に出せない」「電波が届かない」現場ほど、端末完結のエージェントが効きます。
測量・GIS — 端末内データ整形エージェント
現場で取得したデータを、端末内のエージェントが抽出→整形→台帳フォーマットへ変換。成果データを外部に出さずに定型作業を自動化。
建設・点検 — オフライン作業記録
電波の届かない現場でも、端末が点検手順を順に実行し、写真・所見を構造化して記録。クラウド不通でも止まらない。
機密文書の社内エージェント
契約書・社内文書を外部APIに送らず、端末内エージェントが要約・抽出・分類。情報漏えいリスクを構造的に下げる。
介護 — 見守り+記録の自動化
見守り映像や音声を端末内で処理し、エージェントが記録・申し送りの下書きを生成。機微データを施設の外に出さない。
※ 上記は当ラボによる活用構想を含みます。導入の可否は現場の制約に応じた検証が必要です。
課題と対策
「小さく・安全に・確実に」回すための設計が、オンデバイスエージェントの実用性を決めます。
小型モデルの精度・推論限界
端末で動く小型モデルは、長く複雑な手順や曖昧な指示への対応に限界があります。
対策
タスクを小さく分割し、判断はツール(計算・検索・DB)に委ね、各ステップに検証ゲートを置きます。難所だけ大きいモデルへ委譲するハイブリッドも有効です。
ツール設計と失敗時の挙動
ツールの入出力が曖昧だと、誤った呼び出しやループに陥ります。
対策
ツールは明確なスキーマ(引数・型・例)で定義し、失敗時のリトライ・タイムアウト・フォールバックを用意します。
安全性(不可逆操作)
画面操作型エージェントは、送信・購入・削除など取り消せない操作を誤って実行する危険があります。
対策
不可逆操作の前に人間の確認を挟む(Fara-7Bの『決済前に停止』のような機構)。操作範囲をホワイトリストで限定します。
ハルシネーション
もっともらしく誤る出力を、そのまま次の行動の根拠にしてしまう連鎖が起きます。
対策
出力に根拠(参照・計算過程)を持たせ、重要な分岐は検証ステップやルールで裏取りします。
よくある質問
Q. オンデバイスエージェントとクラウドエージェントの違いは何ですか?
どちらもLLM/VLMがツールを使い複数ステップのタスクを自律実行する点は同じですが、オンデバイスは推論も判断も端末内で完結し、データを外部に送りません。プライバシー・オフライン動作・API費用ゼロが利点で、モデルが小さいぶん精度には限界があります。クラウドは大きいモデルで高精度ですが、データ送信とコストが発生します。
Q. 小型モデルでエージェントは実用になりますか?
用途を絞れば実用域に入ってきています。LFM2.5のような小型LLMは構造化されたツール呼び出しに対応し、Fara-7BやHolo2は画面操作に特化しています。汎用の長い自律タスクより、『定型の手順を端末内で正確に回す』用途で効果を発揮します。
Q. どんな端末で動きますか?
ツール呼び出し型の小型LLMはRaspberry Pi 5やスマートフォン、ブラウザ(WebGPU)でも動きます。7B級の画面操作エージェントはRTX搭載PCやJetson Orin/Thorが現実的です。NPU搭載端末の普及で実行できる範囲が広がっています。
Q. セキュリティ面はどう考えればよいですか?
データを送らない設計自体が漏えいリスクを下げますが、エージェント特有の『不可逆操作』への対策が重要です。送信・購入・削除の前に人間の確認を挟み、操作対象・ツールをホワイトリストで限定し、ログを残すことが推奨されます。
あわせて読みたい・試す
ブラウザで動くエージェントを体験
端末内のLLMがツールを呼び出して答える「ブラウザ実演デモ」を公開しました。モデルもツール実行もすべてブラウザ内で完結し、データは送信されません。