ViLa-MIL：透過雙尺度視覺-語言多實例學習提升全切片影像分類

整張切片影像（Whole Slide Image, WSI）在數位病理學中面臨許多重要挑戰，因為WSI的大小龐大且結構層次複雜。WSI包含數十億個像素，因此直接觀察是計算上不可行的。目前基於多實例學習（Multiple Instance Learning, MIL）的方法在性能上有效，但相當依賴大量的包級標註數據，特別是在罕見疾病的情況下，獲取這些數據非常困難。此外，現有策略強烈依賴影像洞察，並因醫院之間數據分佈的差異而遇到泛化問題。最近在視覺-語言模型（Vision-Language Models, VLMs）方面的改進，通過從影像-文本對進行大規模預訓練引入語言先驗；然而，現有策略未能解決與病理學相關的特定領域洞察問題。此外，預訓練模型的計算成本高昂，且對病理學特有的層次特徵適應性不足，這些都是額外的障礙。超越這些挑戰對於推動基於人工智慧的癌症診斷和正確的WSI分類至關重要。

基於MIL的方法通常採用三個階段的流程：從WSI中裁剪補丁、使用預訓練編碼器提取特徵，以及將補丁級別的特徵聚合到切片級別以進行預測。雖然這些方法對於癌症亞型分類和分期等病理相關任務有效，但它們對大量標註數據集的依賴以及對數據分佈變化的敏感性使其使用起來不太實際。像CLIP和BiomedCLIP這樣的VLM模型試圖通過利用從線上數據庫收集的大規模影像-文本對來挖掘語言先驗。然而，這些模型依賴於一般的手工文本提示，缺乏病理診斷的細微差別。此外，由於WSI的層次和大規模特性，從視覺-語言模型到WSI的知識轉移效率低下，這需要巨大的計算成本和特定數據集的微調。

來自西安交通大學（Xi’an Jiaotong University）、騰訊優圖實驗室（Tencent YouTu Lab）和新加坡高效能計算研究所（Institute of High-Performance Computing Singapore）的研究人員提出了一種雙尺度視覺-語言多實例學習模型，能夠通過專門為病理學設計的描述性文本提示和可訓練的解碼器，將視覺-語言模型的知識有效轉移到數位病理學中。與傳統視覺-語言方法的通用類別名稱提示相比，該模型利用一個凍結的大型語言模型在兩個解析度下生成特定領域的描述。低尺度提示強調全球腫瘤結構，而高尺度提示則強調更細微的細胞細節，並改善特徵區分。原型引導的補丁解碼器通過將相似的補丁聚類成可學習的原型向量，逐步累積補丁特徵，從而最小化計算複雜性並改善特徵表示。一個上下文引導的文本解碼器進一步通過使用多粒度影像上下文來改善文本描述，促進視覺和文本模態的更有效融合。

所提出的模型依賴於CLIP作為其基礎模型，並利用幾個附加功能來適應病理任務。整張切片影像在5倍和10倍放大級別上進行補丁分割，而特徵提取使用凍結的ResNet-50影像編碼器。還使用凍結的大型GPT-3.5語言模型生成針對兩個尺度的類別特定描述性提示，並利用可學習向量促進有效的特徵表示。通過一組16個可學習的原型向量來支持進步的特徵聚合。補丁和原型的多粒度特徵還有助於支持文本嵌入，從而改善跨模態對齊。優化訓練使用交叉熵損失，對低尺度和高尺度的相似性分數進行等權重處理，以支持穩健的分類。

這種方法在各種癌症亞型數據集上顯示出更好的性能，顯著超越當前基於MIL和VLM的方法，尤其是在少量樣本學習的情況下。該模型在三個不同數據集——TIHD-RCC、TCGA-RCC和TCGA-Lung上記錄了令人印象深刻的AUC、F1分數和準確率的增長，顯示出該模型在單中心和多中心設置下的穩定性。與最先進的方法相比，分類準確率顯著提高，AUC增長1.7%到7.2%，F1分數增長2.1%到7.3%。使用雙尺度文本提示、原型引導的補丁解碼器和上下文引導的文本解碼器，幫助該框架學習有效的區分形態模式，即使在訓練實例較少的情況下。此外，跨多個數據集的優異泛化能力表明，在跨中心測試期間對領域轉移的適應性增強。這些觀察結果顯示了將視覺-語言模型與病理學專門進展融合的優勢，以促進整張切片影像的分類。

通過開發一種新的雙尺度視覺-語言學習框架，這項研究對WSI分類做出了重要貢獻，利用大型語言模型來提示文本和基於原型的特徵聚合。這種方法增強了少量樣本的泛化能力，降低了計算成本，並促進了解釋性，解決了核心病理學人工智慧挑戰。通過在數位病理學中成功轉移視覺-語言模型，這項研究對基於人工智慧的癌症診斷做出了有價值的貢獻，並有潛力推廣到其他醫學影像任務。

查看論文和GitHub頁面。所有研究的功勞都歸於這個項目的研究人員。同時，歡迎關注我們的Twitter，別忘了加入我們的75k+機器學習SubReddit。

🚨 推薦閱讀 – LG AI研究發布NEXUS：一個先進的系統，整合代理人工智慧系統和數據合規標準，以解決人工智慧數據集中的法律問題。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: ViLaMIL透過雙尺度視覺語言多實例學習提升全切片影像分類