最近在醫療人工智慧(AI)方面的進展,包括醫療大型語言模型(LLMs)和醫療多模態模型(LMMs),顯示出改善醫療建議可獲得性的巨大潛力。然而,這些模型主要以英語為中心,限制了它們對非英語使用者的效用,例如阿拉伯語使用者。此外,許多醫療LMMs在理解高級醫療文本和多模態能力之間的平衡上也面臨挑戰。雖然像LLaVa-Med和MiniGPT-Med這樣的模型針對特定任務(如多輪對話或胸部X光分析)進行了優化,但其他模型(如BiomedGPT)則需要針對不同任務進行微調,顯示出醫療AI需要更具包容性和多功能的解決方案。
來自MBZUAI、林雪平大學(Linköping University)、STMC、Tawam醫院、SSMC和Kozhikode政府醫學院的研究人員開發了BiMediX2,這是一個基於Llama3.1架構的雙語(阿拉伯語-英語)生物醫學專家LMM。這個先進的模型整合了文本和視覺模態,以支持醫療影像理解和各種醫療應用。BiMediX2在一個強大的雙語數據集BiMed-V上進行訓練,該數據集包含160萬條阿拉伯語和英語的文本和影像醫療互動。它能夠無縫進行多輪對話和高級醫療影像分析,涵蓋胸部X光、CT掃描、MRI、組織學切片和大體病理等多種模態。此外,BiMediX2還推出了一個新的雙語GPT-4o基準BiMed-MBench,包含286個經專家驗證的問題,涉及多種影像任務的英語和阿拉伯語。
BiMediX2在多個評估基準上達到了最先進的性能,超越了最近的模型如LLaVa-Med、MiniGPT-Med和BiomedGPT在文本和多模態任務中的表現。它在英語評估中提高了超過9%,在阿拉伯語評估中提高了超過20%,填補了非英語使用者在醫療AI中的重要空白。該模型在視覺問題回答、報告生成和報告摘要任務中表現出色,為雙語醫療應用設立了新的標準。值得注意的是,它在美國醫學執照考試(USMLE)基準上超越了GPT-4超過8%,在UPHILL事實準確性評估中超過9%,確立了自己作為多語言、多模態醫療挑戰的綜合解決方案。
BiMediX2是一個雙語、多模態的AI模型,專為醫療影像分析和對話而設計。它的架構整合了一個視覺編碼器,用於處理多樣的醫療影像模態,以及一個投影器,用於將視覺數據與為Llama 3.1進行標記的文本輸入對齊。該模型使用LoRA適配器和雙語數據集BiMed-V進行微調,該數據集包含160萬個多模態樣本,其中包括163,000個經醫療專家驗證的阿拉伯語翻譯。訓練分為兩個階段:對齊視覺和語言嵌入,以及完善多模態指令響應。BiMediX2能夠在放射學、病理學和臨床問答領域生成準確的雙語醫療見解。
BiMediX2 70B在各種醫療基準測試中持續超越競爭模型,在醫療MMLU、MedMCQA和PubMedQA上達到最高分數,平均得分為84.6%。它在UPHILL OpenQA中表現優異,達到60.6%的準確率,突顯了其在醫療背景中應對錯誤信息的能力。在醫療VQA基準中,BiMediX2 8B以平均得分0.611領先,展示了其在視覺問題回答方面的強大實力。在報告摘要(0.416)和報告生成(0.235)方面的最高得分也使用了MIMIC數據集。BiMediX2能夠有效分析不同專科和語言的複雜醫療影像,並展現出強大的多語言和多模態能力。
總結來說,BiMediX2是一個雙語(阿拉伯語-英語)生物醫學LMM,旨在通過整合文本和視覺模態來支持先進的醫療應用。基於Llama3.1架構,它能夠進行互動的多輪對話,適用於醫療影像分析和報告生成等任務。經過160萬樣本的雙語數據集訓練,BiMediX2在基於文本和影像的醫療基準測試中達到了最先進的性能,包括基於GPT-4o的評估框架BiMed-MBench。它在多模態醫療任務中超越了現有模型,阿拉伯語評估提高了20%以上,英語評估提高了9%。BiMediX2顯著提升了多語言、AI驅動的醫療解決方案的可獲得性。
查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的60k+ ML SubReddit。
🚨 熱門消息:LG AI研究發布EXAONE 3.5:三個開源雙語前沿AI級模型,提供無與倫比的指令跟隨和長上下文理解,為生成AI卓越的全球領導地位提供支持……。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!