雖然大型語言模型(LLMs)在一般應用上有了顯著的進步,但在醫療等專業領域的發展仍然有限。醫療知識的複雜性和高品質、特定領域數據的稀缺,使得創建高效的醫療大型語言模型變得困難。儘管像 GPT-4 和 DeepseekR1 這樣的模型在各行各業中展現了驚人的能力,但它們在醫療領域的適應性受到醫療術語的複雜性、多樣的學科以及不斷演變的文獻的限制。與一般應用不同,醫療人工智慧必須解釋高度技術性的語言,並提供精確且與上下文相關的回應,而傳統的 LLMs 在這方面往往表現不佳。
建立有效醫療大型語言模型的一個主要障礙是高品質訓練數據的可獲得性有限,這是由於隱私問題和法規障礙所限制。醫療數據集包括結構化和非結構化的信息,例如臨床筆記、教科書和研究文章,這使得全面的模型訓練變得困難。雖然有探索過將一般 LLMs 在醫療數據集上進行微調和應用轉移學習的方法,但這些方法往往無法充分理解醫療知識的深度。因此,這些模型可能在特定任務上表現良好,但缺乏應對複雜醫療問題所需的細緻理解,這突顯了更精細的訓練策略的必要性。
百川公司 (Baichuan Inc.) 的研究人員推出了百川-M1 (Baichuan-M1),這是一系列專門為醫療應用設計的大型語言模型。與傳統模型通過額外的預訓練或後訓練來改進現有架構不同,百川-M1 是從零開始構建的,並強調醫療專業知識。該模型在 20 萬億個標記上進行訓練,包括一般和醫療特定數據,平衡了廣泛的語言理解和領域特定的精確性。它在編碼和數學等一般任務以及診斷和治療建議等醫療應用中表現出色。憑藉優化的變壓器架構,百川-M1 為人工智慧驅動的醫療進步設立了新的基準。
該模型架構遵循 Llama 和類似框架,結合了預規範 RMSNorm、FFN 層中的 SwishGlu 和旋轉位置嵌入。研究整合了全局和滑動窗口注意力,以優化推理效率,並將全局層的頭部維度增加到 256。此外,關鍵值注意力上的時間短卷積增強了上下文學習。該模型使用混合標記器處理醫療和一般文本,採用基於課程的訓練策略,隨著數據複雜度的逐步增加,並使用自適應梯度裁剪來保持穩定性。監督微調提高了一般推理和醫療特定任務的能力,確保了穩健的語言理解、醫療推理和長文檔處理能力,同時保持推理效率。
通過各種基準測試,百川-M1-14B-Base 的編碼和數學能力與 Qwen2.5 系列模型進行了評估。代碼生成性能使用 EvalPlus 框架和 Bigcodebench 進行測試,而數學能力則使用 MATH 和 CMATH 數據集進行評估。雖然 14B-Instruct 變體仍然落後於像 Claude-3.5-Sonnet 和 GPT-4o 這樣的專有模型,但差距已大幅縮小。結果顯示,百川-M1-14B-Base 在某些任務中表現具有競爭力,展示了其在代碼生成和數學推理方面的優勢,與其他先進模型相比。
總結來說,將大型語言模型適應專業領域的傳統方法通常涉及微調現有模型。然而,實驗表明,對現有模型進行進一步訓練可能會妨礙特定領域的改進,而不會犧牲一般性能。在醫療領域,使用特定領域數據對一般模型進行微調可能不如從頭開始訓練有效。百川-M1 就是採用這種方法開發的,使用 20 萬億個標記來增強醫療專業知識,同時保持一般能力。開源百川-M1-14B 使得進一步研究成為可能,儘管在罕見疾病診斷和實際應用方面仍然存在挑戰。它的持續發展可能會顯著推進人工智慧驅動的醫療決策。
查看論文,百川-M1-14B-Base 和百川-M1-14B-Instruct。所有研究的功勞都歸於這個項目的研究人員。此外,隨時在 Twitter 上關注我們,別忘了加入我們的 75k+ 機器學習 SubReddit。
🚨 推薦閱讀 – LG 人工智慧研究部門發布 NEXUS:一個先進的系統,整合代理人工智慧系統和數據合規標準,以解決人工智慧數據集中的法律問題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!