BiMediX2：一個突破性的雙語生物醫學大型多模態模型，整合文本和圖像分析以進行先進的醫療診斷

最近在醫療人工智慧（AI）方面的進展，包括醫療大型語言模型（LLMs）和醫療多模態模型（LMMs），顯示出改善醫療建議可獲得性的巨大潛力。然而，這些模型主要以英語為中心，限制了它們對非英語使用者的效用，例如阿拉伯語使用者。此外，許多醫療LMMs在理解高級醫療文本和多模態能力之間的平衡上也面臨挑戰。雖然像LLaVa-Med和MiniGPT-Med這樣的模型針對特定任務（如多輪對話或胸部X光分析）進行了優化，但其他模型（如BiomedGPT）則需要針對不同任務進行微調，顯示出醫療AI需要更具包容性和多功能的解決方案。

來自MBZUAI、林雪平大學（Linköping University）、STMC、Tawam醫院、SSMC和Kozhikode政府醫學院的研究人員開發了BiMediX2，這是一個基於Llama3.1架構的雙語（阿拉伯語-英語）生物醫學專家LMM。這個先進的模型整合了文本和視覺模態，以支持醫療影像理解和各種醫療應用。BiMediX2在一個強大的雙語數據集BiMed-V上進行訓練，該數據集包含160萬條阿拉伯語和英語的文本和影像醫療互動。它能夠無縫進行多輪對話和高級醫療影像分析，涵蓋胸部X光、CT掃描、MRI、組織學切片和大體病理等多種模態。此外，BiMediX2還推出了一個新的雙語GPT-4o基準BiMed-MBench，包含286個經專家驗證的問題，涉及多種影像任務的英語和阿拉伯語。

BiMediX2在多個評估基準上達到了最先進的性能，超越了最近的模型如LLaVa-Med、MiniGPT-Med和BiomedGPT在文本和多模態任務中的表現。它在英語評估中提高了超過9%，在阿拉伯語評估中提高了超過20%，填補了非英語使用者在醫療AI中的重要空白。該模型在視覺問題回答、報告生成和報告摘要任務中表現出色，為雙語醫療應用設立了新的標準。值得注意的是，它在美國醫學執照考試（USMLE）基準上超越了GPT-4超過8%，在UPHILL事實準確性評估中超過9%，確立了自己作為多語言、多模態醫療挑戰的綜合解決方案。

BiMediX2是一個雙語、多模態的AI模型，專為醫療影像分析和對話而設計。它的架構整合了一個視覺編碼器，用於處理多樣的醫療影像模態，以及一個投影器，用於將視覺數據與為Llama 3.1進行標記的文本輸入對齊。該模型使用LoRA適配器和雙語數據集BiMed-V進行微調，該數據集包含160萬個多模態樣本，其中包括163,000個經醫療專家驗證的阿拉伯語翻譯。訓練分為兩個階段：對齊視覺和語言嵌入，以及完善多模態指令響應。BiMediX2能夠在放射學、病理學和臨床問答領域生成準確的雙語醫療見解。

BiMediX2 70B在各種醫療基準測試中持續超越競爭模型，在醫療MMLU、MedMCQA和PubMedQA上達到最高分數，平均得分為84.6%。它在UPHILL OpenQA中表現優異，達到60.6%的準確率，突顯了其在醫療背景中應對錯誤信息的能力。在醫療VQA基準中，BiMediX2 8B以平均得分0.611領先，展示了其在視覺問題回答方面的強大實力。在報告摘要（0.416）和報告生成（0.235）方面的最高得分也使用了MIMIC數據集。BiMediX2能夠有效分析不同專科和語言的複雜醫療影像，並展現出強大的多語言和多模態能力。

總結來說，BiMediX2是一個雙語（阿拉伯語-英語）生物醫學LMM，旨在通過整合文本和視覺模態來支持先進的醫療應用。基於Llama3.1架構，它能夠進行互動的多輪對話，適用於醫療影像分析和報告生成等任務。經過160萬樣本的雙語數據集訓練，BiMediX2在基於文本和影像的醫療基準測試中達到了最先進的性能，包括基於GPT-4o的評估框架BiMed-MBench。它在多模態醫療任務中超越了現有模型，阿拉伯語評估提高了20%以上，英語評估提高了9%。BiMediX2顯著提升了多語言、AI驅動的醫療解決方案的可獲得性。

查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外，別忘了在Twitter上關注我們，加入我們的Telegram頻道和LinkedIn小組。還有，別忘了加入我們的60k+ ML SubReddit。

🚨 熱門消息：LG AI研究發布EXAONE 3.5：三個開源雙語前沿AI級模型，提供無與倫比的指令跟隨和長上下文理解，為生成AI卓越的全球領導地位提供支持……。

新聞來源

本文由 AI 台灣使用 AI 編撰，內容僅供參考，請自行進行事實查核。加入 AI TAIWAN Google News，隨時掌握最新 AI 資訊！

Tags: BiMediX2一個突破性的雙語生物醫學大型多模態模型整合文本和圖像分析以進行先進的醫療診斷