MedHELM：一個綜合醫療基準，用於評估語言模型在真實電子健康紀錄中的臨床任務表現

大型語言模型（LLMs）在醫學領域被廣泛使用，幫助醫生做診斷決策、病人分類、臨床報告和醫學研究工作。雖然它們在控制的醫學測試中表現非常好，例如美國醫學執照考試（USMLE），但在實際應用中的效果仍然沒有得到充分測試。大多數現有的評估依賴於合成基準，這些基準無法反映臨床實踐的複雜性。去年一項研究發現，僅有5%的LLM分析依賴於實際病人的信息，這顯示出在測試實際可用性和確定它們在醫學決策中的可靠性之間存在巨大差異，因此也質疑了它們在實際臨床環境中的安全性和有效性。

目前最先進的評估方法主要使用合成數據集、結構化知識考試和正式的醫學考試來評分語言模型。雖然這些考試測試理論知識，但並不反映真實病人的情況和複雜的互動。大多數測試產生單一的指標結果，沒有關注關鍵細節，例如事實的正確性、臨床適用性和反應偏見的可能性。此外，廣泛使用的公共數據集是同質的，這影響了不同醫學專科和病人群體的普遍性。另一個主要問題是，大多數模型在這些基準下訓練時出現過擬合，因而在動態的醫療環境中表現不佳。缺乏整體系統框架來包容真實的病人互動，進一步削弱了在實際醫療中使用它們的信心。

研究人員開發了MedHELM，這是一個全面的評估框架，旨在針對真實醫療任務測試LLMs，進行多指標評估，並使用專家修訂的基準來解決這些問題。它基於史丹佛大學的語言模型整體評估（HELM），並在五個主要領域進行系統評估：

臨床決策支持

臨床筆記生成

病人溝通與教育

醫學研究協助

行政與工作流程

總共有22個子類別和121個具體醫療任務，確保涵蓋關鍵的醫療應用。與早期標準相比，MedHELM使用實際的臨床數據，通過結構化和開放式任務來評估模型，並應用多方面的評分模式。這種整體覆蓋使其不僅能夠測量知識的回憶，還能評估臨床適用性、推理精確性和日常實用性。

一個龐大的數據集基礎設施支持基準過程，總共包括31個數據集。這些數據集包括11個新開發的醫療數據集，以及20個來自現有臨床記錄的數據集。這些數據集涵蓋了各種醫療領域，從而確保評估準確反映現實世界的醫療挑戰，而不是虛構的測試場景。

將數據集轉換為標準化參考是一個系統的過程，涉及以下幾個步驟：

上下文定義：模型必須分析的具體數據片段（例如，臨床筆記）。
提示策略：指導模型行為的預定義指令（例如，“確定病人的HAS-BLED分數”）。
參考回應：用於比較的臨床驗證輸出（例如，分類標籤、數值或基於文本的診斷）。
評分指標：結合精確匹配、分類準確性、BLEU、ROUGE和BERTScore等文本相似性評估的指標。
這種方法的一個例子是MedCalc-Bench，它測試模型執行臨床重要數值計算的能力。每個數據輸入都包含病人的臨床歷史、一個診斷問題和專家驗證的解決方案，從而對醫學推理和精確性進行嚴格測試。

對六個不同大小的LLMs進行的評估顯示，根據任務的複雜性，這些模型有不同的優勢和劣勢。大型模型如GPT-4o和Gemini 1.5 Pro在醫學推理和計算任務中表現良好，並在臨床風險評估和偏見識別等任務中顯示出更高的準確性。中型模型如Llama-3.3-70B-instruct在預測醫療任務（如住院再入院風險預測）中表現競爭力。小型模型如Phi-3.5-mini-instruct和Qwen-2.5-7B-instruct在領域密集的知識測試中表現不佳，特別是在心理健康諮詢和高級醫學診斷方面。

除了準確性之外，對結構化問題的回應遵從性也有所不同。有些模型不會回答醫學敏感問題，或不會以所需的格式回答，這影響了它們的整體表現。測試還發現目前自動化指標的不足，因為傳統的自然語言處理（NLP）評分機制往往忽略了真實的臨床準確性。在大多數基準中，當使用BERTScore-F1作為指標時，模型之間的性能差異仍然微不足道，這表明目前的自動評估程序可能無法完全捕捉臨床可用性。結果強調了需要更嚴格的評估程序，結合基於事實的評分和明確的臨床醫生反饋，以確保評估的可靠性。

隨著臨床指導的多指標評估框架的出現，MedHELM提供了一種全面且可信的方法來評估醫療領域的語言模型。其方法保證LLMs將在實際的臨床任務、組織推理測試和多樣化數據集上進行評估，而不是在人工測試或簡化基準下進行。它的主要貢獻包括：
一個結構化的121個現實世界醫療任務的分類法，改善了AI在臨床環境中的評估範圍。
使用真實病人數據來增強模型評估，超越理論知識測試。
對六個最先進的LLMs進行嚴格評估，識別優勢和需要改進的地方。
呼籲改進評估方法，強調基於事實的評分、可調整性和直接的臨床驗證。
後續的研究將集中於通過引入更多專業數據集、簡化評估流程和實施來自醫療專業人士的直接反饋來改進MedHELM。克服人工智能評估中的重大限制，這一框架為大型語言模型在當代醫療系統中的安全、有效和臨床相關整合奠定了堅實的基礎。