將人工智慧 (AI) 整合進臨床實踐中是非常具有挑戰性的,尤其是在放射科。雖然AI已經證明可以提高診斷的準確性,但它的「黑箱」特性常常會削弱醫生的信心和接受度。目前的臨床決策支持系統 (CDSS) 要麼無法解釋,要麼使用像是顯著性圖 (saliency maps) 和沙普利值 (Shapley values) 的方法,這些方法並不能讓醫生可靠地獨立驗證AI生成的預測。這一缺陷非常重要,因為它限制了AI在醫療診斷中的潛力,並增加了過度依賴可能錯誤的AI輸出的風險。要解決這個問題,需要新的解決方案來縮小信任缺口,並為醫療專業人員提供合適的工具,以評估在像醫療這樣的高壓環境中AI決策的質量。
在醫療AI中,解釋性技術如顯著性圖、反事實推理 (counterfactual reasoning) 和最近鄰解釋 (nearest-neighbor explanations) 被開發出來,使AI的輸出更容易理解。這些技術的主要目標是解釋AI是如何進行預測的,從而為醫生提供有用的信息,以理解預測背後的決策過程。然而,這些方法也有其限制。其中最大的挑戰之一是過度依賴AI。醫生常常會被AI提供的可能令人信服但實際上不正確的解釋所影響。
認知偏誤,如確認偏誤 (confirmation bias),會使這個問題變得更加嚴重,經常導致錯誤的決策。最重要的是,這些方法缺乏強有力的驗證機制,使醫生無法信任AI預測的可靠性。這些限制凸顯了需要超越解釋性的方式,來包括主動支持驗證和增強人類與AI合作的特徵。
為了解決這些限制,加州大學洛杉磯分校 (UCLA) 的研究人員提出了一種新方法,稱為雙因素檢索 (2-factor Retrieval, 2FR)。這個系統將驗證整合進AI的決策過程中,讓醫生可以將AI的預測與相似標籤案例進行交叉參考。這個設計包括將AI生成的診斷與來自標記數據庫的代表性圖像一起呈現。這些視覺輔助工具使醫生能夠將檢索到的例子與正在審查的病理進行比較,支持診斷回憶和決策驗證。這種新設計減少了依賴性,並鼓勵醫生更積極地參與驗證AI生成的輸出。這一發展提高了信任和準確性,因此在將人工智慧無縫整合進臨床實踐中是一個顯著的進步。
這項研究通過一個控制實驗評估了2FR,參與者包括69位不同專業和經驗水平的醫生。實驗使用了國立衛生研究院 (NIH) 的胸部X光影像,並包含了心臟肥大 (cardiomegaly)、氣胸 (pneumothorax)、腫塊/結節 (mass/nodule) 和積液 (effusion) 的標記圖像。這項工作隨機分為四種不同的模式:僅AI預測、帶有顯著性圖的AI預測、帶有2FR的AI預測,以及沒有AI協助的案例。它使用了不同難度的案例,例如簡單和困難,以測量任務複雜性的影響。診斷準確性和信心是兩個主要指標,並使用線性混合效應模型進行分析,以控制醫生的專業知識和AI的正確性。這種設計足夠穩健,可以對該方法的有效性進行全面評估。
結果顯示,2FR顯著提高了AI輔助決策結構中的診斷準確性。具體來說,當AI生成的預測準確時,使用2FR的準確率達到70%,這顯著高於基於顯著性的方法 (65%)、僅AI預測 (64%) 和無AI支持的案例 (45%)。這種方法對於信心較低的醫生特別有幫助,因為他們相比其他方法取得了顯著的改善。放射科醫生的經驗水平也因使用2FR而有所提高,因此無論經驗水平如何,準確性都更高。然而,當AI預測錯誤時,所有模式的表現都同樣下降。這顯示醫生在這種情況下主要依賴自己的技能。因此,這些結果顯示了2FR在提高診斷信心和表現方面的能力,特別是在AI預測準確的情況下。
這一創新進一步強調了基於驗證的方法在AI決策支持系統中的巨大變革潛力。超越傳統解釋方法的限制,2FR使醫生能夠準確驗證AI預測,進一步提高了準確性和信心。該系統還減輕了認知負擔,並建立了對AI輔助決策的信任。在人類與AI的合作中整合這些機制,將為在醫療保健中更好和更安全地使用AI提供優化。這可能最終用於探索對診斷策略、醫生培訓和病人結果的長期影響。下一代的AI系統與2FR有潛力在醫療實踐中做出重大貢獻,並具備高可靠性和準確性。
查看論文。這項研究的所有榮譽都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,並加入我們的Telegram頻道和LinkedIn小組。如果你喜歡我們的工作,你一定會喜歡我們的電子報。別忘了加入我們的60k+ ML SubReddit。
🚨 [與我們合作]:‘下一期雜誌/報告 – 開源AI在生產中的應用’
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!