水平連合学習デモ — 3拠点が重みだけ持ち寄って学ぶ
同じ項目・違うサンプルを持つ3拠点が、データを送らず重みだけを持ち寄ってFedAvg(連合平均)で1つのAIに統合。ラベルが偏った非IIDな状況でも、単独拠点を上回る様子をブラウザ内で体験できます。
水平連合学習(HFL)とは
水平連合学習は、全拠点が同じ特徴量(列)を持ち、サンプル(行)だけが異なる構成の連合学習です。 「同じ検査項目で別々の患者を診る複数の病院」のように、同種のデータが別々の場所に分散しているケースで使われ、最も一般的なFLの形です。
各拠点は手元のデータでモデルを学習し、学習結果(重み)だけをサーバーへ送ります。 サーバーはそれらをデータ量で加重平均(FedAvg)してグローバルモデルを更新し、再配布します。生データは一度も外に出ません。
医療画像診断
複数病院が同じ検査項目で別々の患者画像を学習。
具体例
AMEDの事業で慈恵医大ほか全国6施設が、乳腺腫瘤の超音波画像を院外に出さずに連合学習を実証。各院は画像ではなく学習済みの重みだけを共有し、1施設では足りないデータの多様性を補完した(医用FLではNVIDIA FLAREが標準基盤)。
介護見守り
施設ごとに別々の入居者の映像で、転倒検知モデルを映像を出さずに共同改善。
具体例
例: 3施設が各50件の転倒映像で局所学習し、映像は施設内に留めたまま転倒検知モデルの重みだけを集約。夜間など稀なケースを施設間で補い合える(※国内で広く実用化される前の構想)。
スマホ入力予測
GboardのようにユーザーごとのデータでキーボードAIを端末上で連合学習。
具体例
Googleは多数のスマートフォンでGboardの次単語予測を、入力履歴を端末に置いたまま連合学習。打鍵内容そのものは送らず、各端末の更新(勾配)だけを集約してモデルを改善する、代表的なクロスデバイスFL。
※「応用構想」は当ラボによる提案で、国内で広く実用化された事例ではありません。医療6施設・Gboardは実証/商用の事例です。
このデモの読み方
- ・3拠点はそれぞれラベルの比率が大きく偏っています(拠点Aはほぼclass0、拠点Cはほぼclass1)。これが「非IID」です。
- ・各拠点が単独で引く境界(細い色線)は偏り、テスト精度も伸び悩みます。
- ・重みを平均するだけのFedAvg統合モデル(紫の太線)は偏りが打ち消され、どの単独拠点よりも高精度=集中学習の上限に近づきます。
仕組みの詳細は 連合学習 完全ガイド を、攻撃と防御は FLポイズニング攻撃ラボ をどうぞ。垂直FL・連合転移学習のデモも順次公開します。
精度を上げるには — 実務の対応策
このデモは仕組みの可視化です。実際の水平連合学習で、非IID(拠点ごとの偏り)に負けず精度を高めるには次の手立てがあります。
- ・ラベル定義・前処理の統一(最重要): 全拠点でアノテーション基準・クラス体系を揃える。技術以前の前提です。
- ・非IID向けアルゴリズム: 単純なFedAvgではなく FedProx / SCAFFOLD など、拠点ごとのズレを抑える改良手法を使う。
- ・パーソナライズFL: 共通層+拠点別層に分け、偏りは各拠点で吸収しつつ共通部分だけを共有する。
- ・クライアント選択・重み調整: 偏りの強い拠点の影響を抑え、データ量に応じた加重を見直す。
- ・データ拡張・ラウンド設計: 少数クラスを補強し、ローカルエポック数とラウンド数をチューニングする。
データ設計・始め方の詳細は 連合学習の実践ガイド にまとめています。
関連記事 — 詳しくはこちら
関連デモ
2体のローカルAI、いつか(VLM)と きつと(分類器)が別々に当てて相談。はずれを教えるほど端末内で学習し、似た絵をk近傍で当てる。全部ブラウザ内・データ送信なし
🔴 分類器8.6MB+会話LLM約500MB(押したら読込)小さなニューラルネットを進化戦略でブラウザ内学習。におい勾配を登って缶に最短到達する方策を獲得し、学習なしのルール猫と競走。学習も推論も端末内で完結
🟢 0MB(ブラウザ内ES学習)粘着トラップの写真から捕獲数をブラウザ内画像処理で自動カウント。ビル環境衛生(IPM)のモニタリングを効率化
🟢 0MB(モデル不要)このデモを「実機」で使うには?
実測データで最適な機種を選び、つまずいたら原因→対処をたどれます。