FEDERATED LEARNING

連合学習（フェデレーテッドラーニング）完全ガイド

データを1箇所に集めずにAIを賢くする。プライバシーと機密の壁を越える機械学習「連合学習」の仕組み・活用例・課題を、エッジAIの実装者視点で解説します。

この記事の要点（30秒で理解）

🤝
連合学習（Federated Learning, FL）は、データを中央に集めず、各拠点・各デバイスの手元でAIを学習させ、学習結果（モデルの重み）だけを統合する機械学習の方式。
📨
ネットワークを流れるのは「データ」ではなく「学習の成果」。プライバシーや機密保持の制約でデータを外に出せない医療・介護・建設・測量などの現場と構造的に相性が良い。
🔁
エッジAI（データを出さない推論）と連合学習（データを出さない学習）を組み合わせると、データを一度も現場の外に出さずにAIを運用・改善するサイクルが完成する。

連合学習とは — 「モデルがデータのところへ学びに行く」

AIの精度はデータの量と多様性で決まります。しかし現実には、最も価値のあるデータほど外に出せません。医療画像、介護施設の見守り映像、建設現場の写真、測量成果 —— いずれも法規制・契約・プライバシーの制約があり、「クラウドに集めて学習する」という王道が使えない領域です。

連合学習（Federated Learning）は、この矛盾を解くために 2016年にGoogleの研究チームが提案した学習方式です（McMahan et al., FedAvg論文）。データを1箇所に集める代わりに、モデルの方を各拠点に送り、手元のデータで学習させ、学習結果（重み）だけを持ち帰って統合します。「データをモデルのところへ運ぶ」発想から「モデルがデータのところへ学びに行く」発想への転換です。

当ラボの80種類以上のデモが実証してきた「ブラウザ内で推論し、AIへの入力を推論のために外部送信しない」というエッジAIの思想を、推論だけでなく学習にまで広げたものと捉えると理解しやすいはずです。

仕組み — FedAvgの4ステップ

最も基本的なアルゴリズム「FedAvg（Federated Averaging）」は、配布→ローカル学習→重み送信→集約のラウンドを繰り返します。

図解：連合学習（FedAvg）のラウンド

中央サーバー（グローバルモデル）

④各拠点の重みを集約してモデルを更新

①モデルを配布

③重み（更新差分）のみ送信

拠点A

②手元のデータでローカル学習

🔒 生データは拠点内に保持

拠点B

②手元のデータでローカル学習

🔒 生データは拠点内に保持

拠点C

②手元のデータでローカル学習

🔒 生データは拠点内に保持

送るのは「データ」ではなく「学びの結果（重み）」だけ。①〜④のラウンドを繰り返してモデルが賢くなります。

📤

STEP 1

グローバルモデルの配布

中央サーバーが現時点の共通モデル（グローバルモデル）を、参加する各拠点・各デバイス（クライアント）に配布します。

🏠

STEP 2

各拠点でローカル学習

各クライアントが手元のデータでモデルを数エポック学習します。学習データはこの間、拠点の外に1バイトも出ません。

📨

STEP 3

重みだけをサーバーへ送信

学習で更新されたモデルの重み（パラメータの更新差分）だけをサーバーへ送ります。送信されるのは「データ」ではなく「学びの結果」です。

⚖️

STEP 4

加重平均で統合（FedAvg）

サーバーが各拠点の重みをデータ量に応じて加重平均し、グローバルモデルを更新。STEP 1に戻り、このラウンドを繰り返してモデルが賢くなっていきます。

ポイントは STEP 3。ネットワークを流れるのは数値の塊である「重み」だけで、写真も映像も音声も移動しません。だからデータ主権を保ったまま協調できます。

🏠 STEP 2を詳しく — ローカル学習で何が起きているか

どんな学習をするのか

特別なアルゴリズムではなく、普段の機械学習と同じ学習ループ（勾配降下）を、配布されたグローバルモデルの重みを初期値として手元データで数エポックだけ回すのが基本です。モデルの種類は問いません。ロジスティック回帰でもCNNでもTransformerのfine-tuningでも、いつもの学習をそのままローカルで実行するだけで、連合学習の一部として機能します。

小さいPCでも体験できるか

できます。下の3デモ（水平・垂直・連合転移）はGPU不要・特別なハードウェア不要で、ブラウザだけで1ラウンドの学習が一瞬で完了します。合成データ＋ロジスティック回帰で完結させているため、普段お使いのノートPCやスマホで仕組みを体験できます（実務で画像診断等の大規模モデルを学習する場合は相応の計算資源が必要です）。

効果的な学習のコツ

ローカルのエポック数は、多すぎると各拠点がデータの偏りに寄りすぎる「クライアントドリフト」を招き、少なすぎると収束が遅くなります。単純なSGDよりAdam等の適応的最適化の方が速く収束しやすいことも、当ラボの検証で確認済みです。型ごとの詳しい手法は下記「精度を上げるには」で解説しています。

↔️ 水平FLでローカル学習を体験 ↕️ 垂直FLでローカル学習を体験 🔀 連合転移でローカル学習を体験

連合学習の3つの型 — 水平・垂直・連合転移

連合学習は「データがどう分かれているか」で3タイプに分類されます。鍵はサンプル軸（行＝対象）と特徴軸（列＝項目）のどちらが重なるかです。

型	サンプル軸（行）	特徴軸（列）	ひとことで
↔️ 水平連合学習 (HFL)	各者バラバラ	共通	同じ項目のデータを、別々の人・拠点が持っている
↕️ 垂直連合学習 (VFL)	共通（同じ対象）	各者バラバラ	同じ人・対象について、違う情報を別の組織が持っている
🔀 連合転移学習 (FTL)	一部のみ重複	一部のみ重複	わずかな重なりを「糊」にして、別ドメインへ知識を転移

↔️

水平連合学習 (HFL)

全拠点が同じ特徴量（列）を持ち、サンプル（行）だけが異なる構成。最も一般的なFLで、FedAvgが標準的に使われます。

例

複数の病院が同じ検査項目で別々の患者データを学習／介護施設ごとの見守り映像で転倒検知モデルを共同改善

↕️

垂直連合学習 (VFL)

同じサンプル（行＝同一の顧客や地点）について、各者が異なる特徴量（列）を保有。ID照合のうえで中間表現だけを交換し、結合モデルを学習します。

例

測量会社（点群の幾何特徴）×台帳（地物の属性）が同一地点で協調／銀行（与信）×ECサイト（購買履歴）

🔀

連合転移学習 (FTL)

サンプルも特徴もほとんど重ならない者同士で、共通するわずかなデータを橋渡しに、データの潤沢な側のモデルを少ない側へ転移します。

例

損傷データが豊富な現場のモデルを、データの少ない新しい現場・地域へ転移して立ち上げる

↔️ 水平FL デモ ↕️ 垂直FL デモ 🔀 連合転移デモ

※ 3分類はYang et al. (2019) が整理した枠組みで、本節はNEC技報の解説を参考に構成しています。各型は上のボタンからブラウザで体験できます。

精度を上げるには — 3型に共通する技術と、型ごとの個別技術

非IID（データが均一でないこと）やドメインシフトへの対策は、3型に共通する土台部分と、型固有の課題に応じた個別の工夫に分かれます。

🔗 3型に共通する技術

技術	内容
データ・ラベル定義の統一	全参加者でアノテーション基準・クラス体系・前処理を揃える。技術以前の大前提で、3型すべてに共通する最重要事項。
基準点から離れすぎない正則化	「今の重みが基準点から離れすぎないよう罰則をかける」という考え方は、水平FLのFedProx（基準点＝直前のグローバルモデル）と連合転移学習のL2-SP（基準点＝ソースモデル）に共通する。どこを基準点にするかが型によって変わる。
最適化手法・学習率の調整	単純な勾配降下よりAdam等の適応的最適化の方が速く高精度に収束しやすい（当ラボの垂直FLデモで実証）。通信ラウンド数やローカル学習量の調整も同様に効く。
比較指標を正しく設計する	「何と比べて精度が上がったと言うか」を誤ると効果が不安定に見える（例: 水平FLで「最良の単独拠点」と比べると僅差で不安定だが、「拠点平均」と比べると常に明確に上回る）。

🎯 型ごとの個別技術

型	主な課題	個別の技術
↔️ 水平FL	拠点ごとのラベル・データ分布の偏り（非IID）	FedProx・SCAFFOLD等の非IID向けアルゴリズム、クライアント選択・重み調整、パーソナライズFL（共通層＋拠点別層）、少数クラスのデータ拡張
↕️ 垂直FL	当事者間でのエンティティ（対象）の正確な突合、特徴量のスケール差	プライバシー保護エンティティ・アライメント（PSI等）の精度向上、特徴量の正規化・標準化、Adam等の適応的最適化（当ラボデモで実装）
🔀 連合転移学習	ソースとターゲットのドメインシフト、少数ターゲットデータへの過学習	L2-SP等のsource-anchored正則化（当ラボデモで実装）、転移する層の選択（浅い汎用層のみ転移等）、少数データでの早期終了

従来の集中学習との比較

観点	集中学習（従来）	連合学習
データの置き場所	中央サーバー・クラウドに集約	各拠点・各デバイスに置いたまま
ネットワークを流れるもの	生データそのもの	モデルの重み（更新差分）のみ
プライバシー・機密	集約先のセキュリティ管理に依存	データ自体は移動しない（重みへの攻撃対策は別途必要）
学習データの多様性	収集・提供に同意が得られた範囲のみ	参加する全拠点のデータ分布を反映できる
実装の難易度	比較的低い（確立されたパイプライン）	高い（非IID・通信・セキュリティの設計が必要）
向いている状況	データ共有に法的・契約的な制約がない場合	法規制・契約・プライバシーでデータを外に出せない場合

連合学習は集中学習の「上位互換」ではありません。データ共有に制約がないなら集中学習の方がシンプルで強力です。データを出せないという制約があるときに初めて、連合学習が唯一の選択肢になります。

エッジAI × 連合学習 — 「推論」と「学習」の両輪

エッジAIの導入で「推論時にデータを外へ送らない」体制ができても、モデルを改善しようとした瞬間に「学習データをどこに集めるか」という問題が再燃します。ここに連合学習を組み合わせることで、AIのライフサイクル全体からデータの持ち出しをなくせます。

🧠

エッジ推論

現場のデバイス・ブラウザで判断。データを送らない「運用」

🏠

ローカル学習

現場のデータで現場のモデルを学習。データを送らない「改善」

🤝

FedAvg統合

学びだけを拠点間で共有。データを送らない「協調」

使い分けの目安: 現場データをクラウドへ送れるなら、エッジ→クラウド再学習→モデル配信のデータフライホイール型が王道です。送れない現場の選択肢が連合学習。アーキテクチャ選定は「データがどこまで外に出せるか」で決まります。

産業別ユースケース

実証・商用化済みの事例と、現場系産業への応用構想を区別して紹介します。

🏥

医療画像診断

国内実証あり

AMED（日本医療研究開発機構）の研究事業で、東京慈恵会医科大学などが全国6施設の乳腺腫瘤超音波画像を施設の外に出さずに連合学習を実証。医用画像のFLではNVIDIA FLARE（旧Clara Train基盤）が標準的な基盤として使われています。

出典: NVIDIA 公式ブログ（慈恵医大の事例）

📱

スマホの入力予測（Gboard）

商用実績

Googleはスマホキーボード「Gboard」の次単語予測を、入力履歴を端末に置いたまま数多くのスマートフォンで連合学習させ改善しています。クロスデバイス型FLの代表例です。

出典: Federated Learning for Mobile Keyboard Prediction (arXiv)

👵

介護 — 見守りAIの施設間改善

応用構想

見守りカメラの映像は最も機微な個人データであり、プライバシーへの配慮が導入の最大の壁とされます。FLなら映像を施設の外に出さずに、転倒検知モデルを複数施設で共同改善できます。

出典: 介護施設における見守りカメラ運用の課題（KaigoDX）

🏗️

建設・土木 — 損傷検出モデルの共同強化

応用構想

各社が持つ現場写真・点検データ（ひび割れ・損傷など）は、施主との契約や機密保持の観点から社外共有が難しいデータです。FLなら生の写真を直接共有せずに、業界全体で損傷検出モデルを改善する協調が可能です。モデル更新からの情報推測には別途対策が必要です。

🗺️

測量・GIS — 点群分類モデルの共同学習

応用構想

公共測量の成果や点群データには取り扱い上の制約が伴います。点群のセマンティック分類モデル（地面・建物・植生など）を、測量会社間でデータを開示せず共同学習する応用が考えられます。

※「応用構想」は当サイト運営者による提案であり、国内で広く実用化された事例ではありません。

連合学習の課題と対策

「データを送らない＝無条件に安全・簡単」ではありません。FLの実用性は、これらの課題への設計力で決まります。

📊

非IIDデータ（拠点ごとの偏り）

拠点ごとにデータの分布が大きく異なる（介護施設ごとの利用者層、現場ごとの構造物種別など）と、単純な平均では学習が不安定になります。

対策

FedProx等の改良アルゴリズム、参加クライアントの選択戦略、パーソナライズ層の分離などで対処します。

📶

通信コスト

学習ラウンドのたびにモデルの重みがサーバーと往復するため、モデルが大きいほど通信負荷が増えます。

対策

重みの圧縮・量子化、送信する層の限定、ラウンド頻度の設計で通信量を削減します。エッジ回線が細い現場ほど設計が重要です。

☠️

ポイズニング攻撃

悪意ある参加者が汚染された重みを送り、グローバルモデルの品質を劣化させたり、バックドアを仕込んだりする攻撃が研究されています。

対策

参加者の認証、外れ値となる更新の検知・除外、ロバスト集約（中央値ベースの統合など）で防御します。

🕵️

重みからの情報漏えい

送信される重み（勾配）から元の学習データを部分的に復元する攻撃が知られており、「データを送らない＝無条件に安全」ではありません。

対策

差分プライバシー（ノイズ付加）、セキュア集約（暗号化したまま平均）、準同型暗号の併用が実務上の推奨です。

主要フレームワーク

フレームワーク	開発元	特徴
Flower	Flower Labs（OSS）	PyTorch / TensorFlow などフレームワーク非依存で使える人気のFL基盤。研究から実務まで対応し、コミュニティが活発。
NVIDIA FLARE	NVIDIA（OSS）	医用画像分野で実績のあるFL基盤。Clara Trainの連合学習エンジンとしてオープンソース化され、ヘルスケア以外の業種にも展開。
TensorFlow Federated	Google（OSS）	FLアルゴリズムの研究・シミュレーションに強いライブラリ。FedAvgの動作検証や独自アルゴリズムの試作に向く。
PySyft	OpenMined（OSS）	差分プライバシーやセキュア計算など、プライバシー強化技術（PETs）との統合を重視したエコシステム。

ブラウザで連合学習はできるか

できます。TensorFlow.jsはブラウザ内でモデルの推論だけでなく学習も実行でき、 Google PAIRチームによるTensorFlow.js連合学習の実験実装や、ブラウザベースFLフレームワークの研究（WebFed）が公開されています。インストール不要のブラウザは、実は最も身近なFLクライアントです。

「あなたのブラウザがFLクライアントになり、あなたの書いたデータは送信されず、AIの学びだけが共有されてモデルが賢くなっていく」—— この体験は、連合学習の本質を最も直感的に伝えられるはずです。

✅ 当ラボで公開中: この仕組みを実際に体験できる「ブラウザ連合学習デモ」を公開しました。あなたのブラウザがFLクライアントになり、手書き画像を送信せずに「みんなで育てるAI」へ貢献できます。非同期FedAvg・ノルムクリッピング・品質ゲートまで、本記事で解説した要素が実装されています。

🤝 ブラウザ連合学習デモを体験する

医療画像診断版のFLデモを作りました

上記の「手書き数字認識」FLデモ（実画像・実CNN・サーバー連携FedAvg）を、医療画像診断向けに置き換えるとしたら何が変わるかを設計し、ブラウザで即座に体験できる軽量版として実装しました。

🩺 医療画像診断×連合学習デモを試す

観点	現行「手書き数字認識」FLデモ	医療画像診断に置き換えた場合
🖼️ データ	28×28の手書き数字（0〜9）。来訪者がその場で描画	皮膚病変・胸部X線等の医用画像。専門医のラベル付けが前提で、一般来訪者の描画では代替できない
👤 クライアントの単位	1来訪者＝1クライアント。誰でもリアルタイムに参加可能	1医療機関＝1クライアント。データは機関内に事前保有し、参加型ではなくシミュレーションになる（研究では公開データセットを複数施設に模擬分割する手法が一般的）
🧠 モデル	小型CNN（畳み込み2層）で十分	画像がより複雑・高解像度なため、より深いモデル（MobileNet系等）が必要になりやすい
📊 非IIDの現れ方	手書きの癖（人によって字形が違う）程度の軽微なズレ	患者層の違いや、撮影機器・施設ごとのキャリブレーション差による分布のズレ。当ラボの水平FLデモ・連合転移学習デモの「病院」シナリオが、この現れ方を簡略化した合成データで可視化しています
🔒 プライバシー・規制	匿名の手書き画像なので、公開デモとして誰でも気軽に参加できる	実患者データは個人情報保護法・倫理審査等の制約が非常に強く、公開デモとして実データを扱うのは現実的に困難。研究では公開データセット（例: 皮膚病変のHAM10000）を仮想的に複数施設へ分割してシミュレーションする手法が一般的

※ 実際の医療FL研究では、複数の実在施設由来のデータ（COVID-19データセット・深セン人民医院・UCSD収集の胸部X線等）で、撮影機器の違いによる非IIDが確認されています。詳しくはFederated Learning for Medical Image Analysis: A Survey（arXiv）をご参照ください。

※ 上記の表は「本格的な実装」を想定した設計上の検討です。実際に公開したデモは、ブラウザで瞬時に完結させるため CNNではなくABCDEルール由来の特徴量＋ロジスティック回帰を使う簡易版で、画像も実患者データではなく合成データです。

🌉 建設・インフラ点検版もあります

医療画像だけでなく、建設・インフラ点検向けの連合学習デモも公開しています。3つの点検地域が「ひび割れ幅・剥離の程度・長さ」から要措置を判定するAIを、写真を1枚も地域の外に出さずに共同学習するシミュレーションです。判定基準は道路橋定期点検要領の実基準（ひび割れ幅0.2mm/0.5mmが区分の目安）に校正した合成データを使っています。

🌉 建設インフラ点検×連合学習デモを試す

よくある質問

Q. 連合学習とエッジAIの違いは何ですか？

エッジAIは「推論」を現場側のデバイスで行う技術の総称で、連合学習は「学習」を現場側で行い、結果（重み）だけを統合する手法です。エッジAIが判断のたびにデータを外へ送らない技術だとすれば、連合学習はAIを育てる過程でもデータを外へ出さない技術であり、両者を組み合わせることでデータを一度も現場の外に出さずにAIを運用・改善できます。

Q. 連合学習ではデータは本当に外部に出ないのですか？

生データそのものは移動しません。ただし、送信されるモデルの重み（勾配）から学習データの情報を部分的に推測する攻撃が研究されているため、「重みを送る＝完全に安全」とは言えません。実務では差分プライバシーやセキュア集約と組み合わせて、重み経由の漏えいリスクも抑える設計が推奨されます。

Q. 何拠点くらいから連合学習は有効ですか？

形態によります。病院や企業など少数の組織が参加する「クロスサイロ型」では数拠点〜数十拠点が一般的で、国内の医療実証では6施設の例があります。スマートフォンなどが参加する「クロスデバイス型」では数千〜数百万台規模になります。拠点数よりも「各拠点に、共有できないが学習価値のあるデータがあるか」が本質です。

Q. 分散学習（distributed training）との違いは何ですか？

分散学習は、1つの組織が自分のデータを複数のGPUやサーバーに分散させて学習を高速化する技術です。連合学習は、データの所有者がそれぞれ異なり、互いにデータを開示できないという前提で協調する点が本質的に異なります。技術的には似た計算でも、解いている問題（性能 vs データ主権）が違います。

Q. どんな業界が連合学習に向いていますか？

データの持ち出しが法規制・契約・プライバシーで制限される業界です。医療画像が世界的に先行し、金融の不正検知でも活用が進みます。今後は、見守り映像を扱う介護、現場写真が機密になる建設・土木、成果の取り扱いに制約がある測量・地理空間分野など、「現場系」産業への応用が有望と考えられます。

「データを外に出せない現場」のAI活用をお考えですか？

エッジAI・連合学習のアーキテクチャ設計は「現場のデータがどこまで出せるか」の見極めから始まります。まずはブラウザデモで「データを送らないAI」を体験してみてください。

全デモ一覧を見るお問い合わせ（Link Field）

連合学習（フェデレーテッドラーニング）完全ガイド

この記事の要点（30秒で理解）

連合学習とは — 「モデルがデータのところへ学びに行く」

仕組み — FedAvgの4ステップ

グローバルモデルの配布

各拠点でローカル学習

重みだけをサーバーへ送信

加重平均で統合（FedAvg）

🏠 STEP 2を詳しく — ローカル学習で何が起きているか

どんな学習をするのか

小さいPCでも体験できるか

効果的な学習のコツ

連合学習の3つの型 — 水平・垂直・連合転移

水平連合学習 (HFL)

垂直連合学習 (VFL)

連合転移学習 (FTL)

精度を上げるには — 3型に共通する技術と、型ごとの個別技術

🔗 3型に共通する技術

🎯 型ごとの個別技術

従来の集中学習との比較

エッジAI × 連合学習 — 「推論」と「学習」の両輪

エッジ推論

ローカル学習

FedAvg統合

産業別ユースケース

医療画像診断

スマホの入力予測（Gboard）

介護 — 見守りAIの施設間改善

建設・土木 — 損傷検出モデルの共同強化

測量・GIS — 点群分類モデルの共同学習

連合学習の課題と対策

非IIDデータ（拠点ごとの偏り）

対策

通信コスト

対策

ポイズニング攻撃

対策

重みからの情報漏えい

対策

主要フレームワーク

ブラウザで連合学習はできるか

医療画像診断版のFLデモを作りました

🌉 建設・インフラ点検版もあります

よくある質問

Q. 連合学習とエッジAIの違いは何ですか？

Q. 連合学習ではデータは本当に外部に出ないのですか？

Q. 何拠点くらいから連合学習は有効ですか？

Q. 分散学習（distributed training）との違いは何ですか？

Q. どんな業界が連合学習に向いていますか？

関連デモ — 「データを出さないAI」を今すぐ体験

ブラウザ連合学習【NEW】

建設インフラ点検×連合学習デモ

FLポイズニング攻撃ラボ

水平連合学習デモ

垂直連合学習デモ

連合転移学習デモ

手書き文字認識

顔モザイク・プライバシーマスク

Whisper文字起こし

3D点群ビューア＋AI分類

デバイス別ベンチマーク

あわせて読みたい

連合学習の実践ガイド

CPS×エッジAI入門

エッジ-クラウド連携アーキテクチャ

ブラウザAI完全ガイド

「データを外に出せない現場」のAI活用をお考えですか？