有許多方法成功地從心臟超音波影像中預測左心室(LV)的射出分數(EF)。然而,大多數方法並未提供預測的解釋。
作者認為,清晰且直觀的預測解釋將增加心臟科醫生對這些模型的信任。
這篇論文提出了一種新的EF預測方法,並提供自然語言解釋(NLE)。除了提供EF的數值外,還生成一個簡短的報告(或標題),解釋預測值的原因。
NLE的目的是為預測提供背景和清晰度。其他解釋方法,如類別激活映射(Class Activation Mapping, CAM)或Grad-CAM僅強調某些區域,無法提供預測值的推理。
還預測了一種基於小型大型語言模型(LLMs)的新評估指標。
1. 使用圖形卷積網絡(Graph Convolutional Network, GCN)預測形成LV輪廓的關鍵點。
2. 使用兩個回歸器計算EF,一個基於輪廓面積變化的數學概念,另一個基於來自輸入編碼器的直接預測。
3. 添加第二個回歸器,依賴於收縮期(ES)和舒張期(ED)輪廓之間的差異,以模擬手動計算並增加EF值的可解釋性。
4. 從預測的輪廓中提取屬性。這些屬性旨在反映可能影響EF值的結構或時間變化。
這些屬性包括:
- 隔膜隆起:計算壁厚變化。
- 段運動:將輪廓分為七個部分,並比較它們的運動與整體輪廓的運動。
- 心尖運動:心尖運動應該有限,通常不會移動。
- 長寬運動:輪廓的長寬比,如果不接近2則識別為擴張的LV。
- 扇區交集:LV輪廓在超聲波扇區中的可見性。
- 影像質量:LV腔體與心肌壁之間的強度差異。
5. 根據屬性的文本轉換,輸出旨在臨床使用的連貫NLE。
基本句子形成如下:隆起=500,這意味著沒有隆起。基本句子經過LLaMA模型的精細調整,轉化為更連貫和完整的句子。
新指標
還提出了一種新指標,用於評估EF解釋並補充基本指標,因為某些對抗性範例可能會誤導這些基本指標。其目的是允許評估事實的正確性。
這是基於Mistral模型(小型且快速的LLM),使用九個目標提示、指令和一次性上下文來評估輸出預測的內容。它評估屬性在輸出中是否被視為正常或病理。
它允許在文本相似性之外比較真實情況和預測。報告準確性、矛盾和幻覺。
訓練
GCN
GCN具有ResNet3D-18骨幹。它從視頻中提取特徵表示,這些特徵被輸入到時空GCN中,以識別解剖學的關鍵點。
LLM
LLM經過微調,以使生成的文本與臨床術語和推理對齊。
微調是基於LLaMA模型的低秩適應,使用8位量化進行的。
由於註釋有限,作者採用了兩種數據增強策略來增加數據量:
- 通過從基本句子範例中製作更詳細的句子來創建合成解釋。
- 使用GPT4提示專家解釋和包括基本輸入(來自指標)的思考鏈提示,創建新的基本文本解釋。
用於實驗的數據主要來自EchoNet-Dynamic數據集,包含10,030個心臟超音波視頻。
除了視頻和輪廓信息外,專家還觀看了一部分視頻並提供文本描述,包括EF評估和解釋。總共提供了137對圖像-文本(89-48的訓練-測試分割)。
作者在兩個方面評估了他們的方法:EF預測性能和NLE。對於NLE,他們使用新的自定義指標、文本相似性指標(ClinicalBERT, sBERT)和Flesh可讀性指數。
將LLM添加到EF預測中可以提高可解釋性,特別是在臨床使用情境中。
架構選擇,如模塊之間的分離,也改善了解釋性(例如:在EF計算之前明確預測輪廓)。
利用合成和增強數據有助於提高可解釋性,而不會對預測添加偏見。
使用新指標可以很好地評估矛盾,超越文本相似性。
這種方法可以通過使用更大規模的數據集來進一步增強。
參考文獻
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!