Medprompt 是一種運行時引導策略,顯示了如何引導通用的大型語言模型 (LLM) 在專業領域如醫學中達到最先進的表現。透過使用結構化的多步驟提示技術,例如思考鏈 (CoT) 推理、精心挑選的少量示例和選擇隨機組合,Medprompt 彌補了通用模型和專業模型之間的差距。這種方法顯著提高了在醫學基準測試(如 MedQA)上的表現,錯誤率減少了近 50%,而不需要對模型進行微調。OpenAI 的 o1-preview 模型進一步展示了 LLM 設計的進步,通過結合運行時推理動態地改善輸出,超越了傳統的 CoT 策略來處理複雜任務。
歷史上,針對特定領域的預訓練對於在專業領域獲得高效能是必須的,這在像 PubMedBERT 和 BioGPT 的模型中得到了體現。然而,隨著大型通用模型如 GPT-4 的興起,這一範式發生了變化,這些模型在像美國醫學執照考試 (USMLE) 這樣的任務上超越了專業模型。像 Medprompt 這樣的策略通過整合動態提示方法來提高通用模型的表現,使得像 GPT-4 這樣的模型在醫學基準測試中取得更好的結果。儘管像 Med-PaLM 和 Med-Gemini 這樣的微調醫學模型有所進步,但通用方法結合了精緻的推理時間策略,如 Medprompt 和 o1-preview,為高風險領域提供了可擴展和有效的解決方案。
微軟和 OpenAI 的研究人員評估了 o1-preview 模型,這代表了 AI 設計的一次轉變,通過在訓練過程中結合 CoT 推理。這種「推理原生」的方法使得在推理時能夠逐步解決問題,減少了對像 Medprompt 這樣的提示工程技術的依賴。他們的研究發現,o1-preview 在醫學基準測試中超越了 GPT-4,即使使用了 Medprompt,少量提示反而會影響其表現,這表明在這類模型中,上下文學習的效果較差。儘管像集成這樣的資源密集型策略仍然可行,但 o1-preview 以更高的成本達到了最先進的結果。這些發現突顯了對新基準的需求,以挑戰推理原生模型並改善推理時間的優化。
Medprompt 是一個旨在優化通用模型(如 GPT-4)在專業領域(如醫學)表現的框架,通過結合動態少量提示、CoT 推理和集成。它動態選擇相關示例,利用 CoT 進行逐步推理,並通過多次模型運行的多數投票集成來提高準確性。元推理策略在推理過程中指導計算資源的分配,而外部資源整合(如檢索增強生成 (RAG))則確保實時訪問相關信息。先進的提示技術和迭代推理框架,如自學推理器 (STaR),進一步改善模型輸出,強調推理時間的擴展而非預訓練。多代理協作提供了複雜任務的協作解決方案。
這項研究評估了 o1-preview 模型在醫學基準測試上的表現,並將其與包括 Medprompt 增強策略的 GPT-4 模型進行比較。準確性是主要指標,評估的數據集包括 MedQA、MedMCQA、MMLU、NCLEX 和 JMLE-2024,以及 USMLE 的準備材料。結果顯示,o1-preview 通常超越 GPT-4,在推理密集型任務和多語言案例(如 JMLE-2024)中表現出色。提示策略,特別是集成,提升了表現,儘管少量提示可能會影響其效果。o1-preview 實現了高準確性,但相較於 GPT-4o,成本更高,後者在某些任務中提供了更好的性價比。這項研究突顯了在優化大型醫學語言模型時,準確性、價格和提示方法之間的權衡。
總結來說,OpenAI 的 o1-preview 模型顯著提升了 LLM 的表現,在醫學基準測試中實現了更高的準確性,而不需要複雜的提示策略。與使用 Medprompt 的 GPT-4 不同,o1-preview 減少了對像少量提示這樣的技術的依賴,這些技術有時會對表現產生負面影響。儘管集成仍然有效,但它需要仔細考量成本與效能之間的權衡。該模型建立了一個新的 Pareto 前沿,提供了更高質量的結果,而 GPT-4o 在某些任務中則提供了更具成本效益的替代方案。隨著 o1-preview 在現有基準上接近飽和,迫切需要更具挑戰性的評估,以進一步探索其能力,特別是在現實應用中。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!