FedVCK：以數據為中心的方法應對聯邦醫學影像分析中的非獨立同分佈挑戰

聯邦學習（Federated Learning）是一種讓醫療機構之間可以共同訓練模型的方式，同時保護數據隱私。然而，由於不同機構的專業領域和地區人口差異，數據的非獨立同分佈（non-IID）特性帶來了很大的挑戰。這種異質性會導致客戶端漂移（client drift）和全球模型性能不佳。目前的聯邦學習方法主要通過模型中心的方法來解決這個問題，例如修改本地訓練過程或全球聚合策略。然而，這些解決方案通常只能帶來微小的改善，並且需要頻繁的通信，這會增加成本並引發隱私問題。因此，迫切需要能夠有效處理嚴重非獨立同分佈情況的穩健且通信效率高的方法。

最近，數據中心的聯邦學習方法因為能夠通過合成和共享虛擬數據來減少數據層面的差異而受到關注。這些方法，包括FedGen、FedMix和FedGAN，試圖近似真實數據，生成虛擬表示，或共享經過生成對抗網絡（GAN）訓練的數據。然而，它們面臨著合成數據質量低和知識冗餘等挑戰。例如，混合方法可能會扭曲數據，而隨機選擇進行數據合成往往會導致對全球模型的更新重複且缺乏意義。此外，一些方法還引入了隱私風險，並且在通信受限的環境中效率不高。解決這些問題需要先進的合成技術，以確保高質量數據、最小化冗餘並優化知識提取，從而在非獨立同分佈的條件下實現更好的性能。

來自北京大學的研究人員提出了FedVCK（通過有價值的濃縮知識進行的聯邦學習），這是一種針對協作醫療影像分析的數據中心聯邦學習方法。FedVCK解決了非獨立同分佈的挑戰，並通過使用潛在分佈約束將每個客戶端的數據濃縮為一個小而高質量的數據集，從而最小化通信成本。一種模型引導的方法確保只選擇必要的、非冗餘的知識。在伺服器端，關聯性監督對比學習（relational supervised contrastive learning）通過識別難以分類的負類別來增強全球模型的更新。實驗表明，FedVCK在預測準確性、通信效率和隱私保護方面超越了最先進的方法，即使在有限的通信預算和嚴重的非獨立同分佈情況下也能表現良好。

FedVCK是一個聯邦學習框架，包含兩個關鍵組件：客戶端的知識濃縮和伺服器端的關聯性監督學習。在客戶端，它使用分佈匹配技術，根據潛在分佈約束和難以預測樣本的重要性抽樣，將本地數據中的關鍵知識濃縮為一個小的可學習數據集。這確保了濃縮後的數據集能夠填補全球模型的空白。國際模型在伺服器端使用交叉熵損失和基於原型的對比學習進行更新。它通過將特徵與其原型對齊並推離難以分類的負類別來改善類別分離。這一迭代過程提高了性能。

所提出的FedVCK方法是一種數據中心的聯邦學習方法，旨在解決協作醫療影像分析中非獨立同分佈數據分佈的挑戰。它在多個數據集上進行了評估，包括結腸病理學、視網膜OCT掃描、腹部CT掃描、胸部X光和一般數據集如CIFAR10和ImageNette，涵蓋了不同的解析度和模態。實驗顯示，FedVCK在各數據集上的準確性優於九種基準聯邦學習方法。與表現平平的模型中心方法或在合成質量和可擴展性上掙扎的數據中心方法不同，FedVCK有效地濃縮了高質量的知識，以提高全球模型的性能，同時保持低通信成本並在嚴重的非獨立同分佈情況下具有穩健性。

該方法還顯示出顯著的隱私保護效果，這在會員推斷攻擊實驗中得到了證明，FedVCK的表現超過了傳統方法如FedAvg。通過減少通信回合，FedVCK降低了時間攻擊的風險，提供了更好的防禦率。此外，消融研究確認了其關鍵組件的有效性，例如模型引導選擇，這優化了對異質數據集的知識濃縮。將評估擴展到自然數據集進一步驗證了其通用性和穩健性。未來的工作旨在擴大FedVCK對其他數據模態的適用性，包括3D CT掃描，並提升濃縮技術以提高效率和效果。

查看論文。所有的研究成果都歸功於這個項目的研究人員。此外，別忘了在Twitter上關注我們，加入我們的Telegram頻道和LinkedIn小組。也別忘了加入我們的60k+ ML SubReddit。

🚨 熱門消息：LG AI研究發布EXAONE 3.5：三個開源雙語前沿AI級模型提供無與倫比的指令跟隨和長上下文理解，為生成AI卓越的全球領導地位提供支持……。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: FedVCK以數據為中心的方法應對聯邦醫學影像分析中的非獨立同分佈挑戰