空間認識AI(単眼深度 × 物体検出)
1台のカメラ(単眼)で、何が・どの方向に・どのくらいの奥行きにあるかをブラウザ内で推定。物体検出と深度推定を融合した空間理解のデモです。
単眼カメラで「空間」を読む仕組み
物体検出(RF-DETR-Nano)
カメラ/画像から物体の位置(バウンディングボックス)とクラスを検出。COCO 80種に対応。
単眼深度(Depth Anything V2)
1枚のRGBから各画素の奥行きを推定。レンズ1個で「手前↔奥」が読み取れます。
Fusion=空間理解
各物体ボックスの位置で深度をサンプルし「方向(左/正面/右)+奥行き(手前/中間/奥)」を合成。
完全ローカル
映像も結果もサーバーに送りません。すべて端末のGPU/CPUで完結します。
このデモは「エッジ実機システム」のプロトタイプ
ここでブラウザが行っている「検出 → 深度サンプル → 空間事実の生成」は、そのままJetson などのエッジ機材上で動かすリアルタイム空間認識システムの設計図になります。 実機では深度をTensorRTで高速化し、生成した空間事実をVLM(視覚言語モデル)に渡して自然言語で状況説明させる、 といった発展が可能です。ブラウザ版は相対深度(順序のみ)ですが、深度カメラでの較正やメトリックfine-tuneによりメートル単位の絶対距離へ拡張できます。
リアルタイム空間認識を実機で動かす機材
ブラウザで試した「検出×深度」を、エッジで常時動かすための構成。深度+検出+VLMはGPU/メモリが要になります。
Raspberry Pi 5 + AI Camera(IMX500)。カメラ側でAI推論する分ホスト負荷が低く、まず試すのに最適。
NVIDIA Jetson Orin Nano + Webカメラ。GPUで複数カメラ・高精度モデルも安定処理。
価格は目安(変動あり)。下のカードから用途に合うものを選んでください(全点を揃える必要はありません)。
大きなモデルの生成・推論や複数モデルの常時稼働には、Pi/Jetsonより大容量メモリ・高性能CPU/GPUを積める高性能ミニPCが快適です。
Raspberry Pi AI Camera(IMX500)
Sony IMX500搭載のAI処理内蔵カメラ。カメラ側でAI推論を実行し、ホストの負荷が極めて低い。
Google Coral USB Accelerator
既存のPCやRaspberry PiにUSB接続するだけでAI推論を高速化。4 TOPSのEdge TPU搭載。
※ 上記リンクはアフィリエイトリンクです(購入で当サイトに収益が発生する場合があります)。 価格は目安で、最新価格・在庫はリンク先でご確認ください。構成は用途の一例です。
関連記事 — 詳しくはこちら
関連デモ
このデモを「実機」で使うには?
実測データで最適な機種を選び、つまずいたら原因→対処をたどれます。