エッジAIラボ
エッジAIラボ
ON-DEVICE AGENTS

オンデバイスAIエージェント完全ガイド

端末内のLLM/VLMが「考えて、ツールを使い、操作する」。データを外に出さずに複数ステップのタスクをこなすオンデバイスAIエージェントの仕組み・種類・実例・課題を、エッジAIの実装者視点で解説します。

この記事の要点(30秒で理解)

  • 🤖

    オンデバイスAIエージェントは、端末内のLLM/VLMが推論にとどまらず「計画→ツール呼び出し・画面操作→観測」を繰り返し、複数ステップのタスクを自律的に実行するAI。

  • 🔒

    データを端末の外に出さずにエージェントが動くため、機密・オフライン・低コストが求められる現場(測量・建設・介護・自治体)と構造的に相性が良い。

  • 🚀

    2025年後半以降、小型でも実用的なエージェントが相次ぎ登場(Liquid AI LFM2.5・Microsoft Fara-7B・H Company Holo2)。端末完結のエージェントが現実的な選択肢になった。

「答えるAI」から「動くAI」へ

通常のLLMは「聞かれたら答える」までです。AIエージェントは、目標を与えると自分で手順を計画し、ツール(計算・検索・API・画面操作)を使い、結果を見て次の行動を決める—— という知覚→計画→行動→観測のループを回します。

オンデバイス(端末内)でこれを行うと、判断もツール実行もローカルで完結し、データを外部へ送りません。 当ラボの60本以上のデモが実証してきた「ブラウザ内で推論が完結する」エッジAIの思想を、単発の推論から、複数ステップの自律実行へ広げたものがオンデバイスエージェントです。

オンデバイスエージェントの種類

「何を操作するか」で大きく分かれます。いずれも2025年後半以降に端末で動く実例が出そろいました。

代表モデルサイズ特徴
ツール呼び出し型LFM2.5-230M(Liquid AI)230M端末内の小型LLMが関数(ツール)を構造化出力で呼び出し、データ抽出やAPI実行を行う。Raspberry Pi 5で約42 tok/sと軽量。
コンピュータ操作型(CUA)Fara-7B(Microsoft)7Bスクリーンショットを見て座標をクリック/入力するエージェント。平均約16ステップでタスクを完了し、決済前に停止する安全機構を内蔵(MIT)。
GUIエージェントHolo2-4B(H Company)4BWeb/デスクトップ/モバイルを横断してUI要素を位置特定・操作する軽量VLMエージェント(Apache 2.0)。
ローカル検索エージェントJan-v1-4B(Menlo Research)4B端末上でWeb検索+深掘り調査を行うエージェント特化モデル。SimpleQA 91%でローカルのPerplexity代替を狙う(Apache 2.0)。

※ 各モデルの実例・出典は当ラボの月刊エッジAIリソース(2025年11月号以降)で随時更新。

現場での活用

「データを外に出せない」「電波が届かない」現場ほど、端末完結のエージェントが効きます。

🗺️

測量・GIS — 端末内データ整形エージェント

現場で取得したデータを、端末内のエージェントが抽出→整形→台帳フォーマットへ変換。成果データを外部に出さずに定型作業を自動化。

🏗️

建設・点検 — オフライン作業記録

電波の届かない現場でも、端末が点検手順を順に実行し、写真・所見を構造化して記録。クラウド不通でも止まらない。

📄

機密文書の社内エージェント

契約書・社内文書を外部APIに送らず、端末内エージェントが要約・抽出・分類。情報漏えいリスクを構造的に下げる。

👵

介護 — 見守り+記録の自動化

見守り映像や音声を端末内で処理し、エージェントが記録・申し送りの下書きを生成。機微データを施設の外に出さない。

※ 上記は当ラボによる活用構想を含みます。導入の可否は現場の制約に応じた検証が必要です。

課題と対策

「小さく・安全に・確実に」回すための設計が、オンデバイスエージェントの実用性を決めます。

🎯

小型モデルの精度・推論限界

端末で動く小型モデルは、長く複雑な手順や曖昧な指示への対応に限界があります。

対策

タスクを小さく分割し、判断はツール(計算・検索・DB)に委ね、各ステップに検証ゲートを置きます。難所だけ大きいモデルへ委譲するハイブリッドも有効です。

🧰

ツール設計と失敗時の挙動

ツールの入出力が曖昧だと、誤った呼び出しやループに陥ります。

対策

ツールは明確なスキーマ(引数・型・例)で定義し、失敗時のリトライ・タイムアウト・フォールバックを用意します。

🛡️

安全性(不可逆操作)

画面操作型エージェントは、送信・購入・削除など取り消せない操作を誤って実行する危険があります。

対策

不可逆操作の前に人間の確認を挟む(Fara-7Bの『決済前に停止』のような機構)。操作範囲をホワイトリストで限定します。

🔍

ハルシネーション

もっともらしく誤る出力を、そのまま次の行動の根拠にしてしまう連鎖が起きます。

対策

出力に根拠(参照・計算過程)を持たせ、重要な分岐は検証ステップやルールで裏取りします。

よくある質問

Q. オンデバイスエージェントとクラウドエージェントの違いは何ですか?

どちらもLLM/VLMがツールを使い複数ステップのタスクを自律実行する点は同じですが、オンデバイスは推論も判断も端末内で完結し、データを外部に送りません。プライバシー・オフライン動作・API費用ゼロが利点で、モデルが小さいぶん精度には限界があります。クラウドは大きいモデルで高精度ですが、データ送信とコストが発生します。

Q. 小型モデルでエージェントは実用になりますか?

用途を絞れば実用域に入ってきています。LFM2.5のような小型LLMは構造化されたツール呼び出しに対応し、Fara-7BやHolo2は画面操作に特化しています。汎用の長い自律タスクより、『定型の手順を端末内で正確に回す』用途で効果を発揮します。

Q. どんな端末で動きますか?

ツール呼び出し型の小型LLMはRaspberry Pi 5やスマートフォン、ブラウザ(WebGPU)でも動きます。7B級の画面操作エージェントはRTX搭載PCやJetson Orin/Thorが現実的です。NPU搭載端末の普及で実行できる範囲が広がっています。

Q. セキュリティ面はどう考えればよいですか?

データを送らない設計自体が漏えいリスクを下げますが、エージェント特有の『不可逆操作』への対策が重要です。送信・購入・削除の前に人間の確認を挟み、操作対象・ツールをホワイトリストで限定し、ログを残すことが推奨されます。

公開中

ブラウザで動くエージェントを体験

端末内のLLMがツールを呼び出して答える「ブラウザ実演デモ」を公開しました。モデルもツール実行もすべてブラウザ内で完結し、データは送信されません。