推進醫療人工智慧：評估OpenAI的o1-Preview模型及優化推理策略

Medprompt 是一種運行時引導策略，顯示了如何引導通用的大型語言模型 (LLM) 在專業領域如醫學中達到最先進的表現。透過使用結構化的多步驟提示技術，例如思考鏈 (CoT) 推理、精心挑選的少量示例和選擇隨機組合，Medprompt 彌補了通用模型和專業模型之間的差距。這種方法顯著提高了在醫學基準測試（如 MedQA）上的表現，錯誤率減少了近 50%，而不需要對模型進行微調。OpenAI 的 o1-preview 模型進一步展示了 LLM 設計的進步，通過結合運行時推理動態地改善輸出，超越了傳統的 CoT 策略來處理複雜任務。

歷史上，針對特定領域的預訓練對於在專業領域獲得高效能是必須的，這在像 PubMedBERT 和 BioGPT 的模型中得到了體現。然而，隨著大型通用模型如 GPT-4 的興起，這一範式發生了變化，這些模型在像美國醫學執照考試 (USMLE) 這樣的任務上超越了專業模型。像 Medprompt 這樣的策略通過整合動態提示方法來提高通用模型的表現，使得像 GPT-4 這樣的模型在醫學基準測試中取得更好的結果。儘管像 Med-PaLM 和 Med-Gemini 這樣的微調醫學模型有所進步，但通用方法結合了精緻的推理時間策略，如 Medprompt 和 o1-preview，為高風險領域提供了可擴展和有效的解決方案。

微軟和 OpenAI 的研究人員評估了 o1-preview 模型，這代表了 AI 設計的一次轉變，通過在訓練過程中結合 CoT 推理。這種「推理原生」的方法使得在推理時能夠逐步解決問題，減少了對像 Medprompt 這樣的提示工程技術的依賴。他們的研究發現，o1-preview 在醫學基準測試中超越了 GPT-4，即使使用了 Medprompt，少量提示反而會影響其表現，這表明在這類模型中，上下文學習的效果較差。儘管像集成這樣的資源密集型策略仍然可行，但 o1-preview 以更高的成本達到了最先進的結果。這些發現突顯了對新基準的需求，以挑戰推理原生模型並改善推理時間的優化。

Medprompt 是一個旨在優化通用模型（如 GPT-4）在專業領域（如醫學）表現的框架，通過結合動態少量提示、CoT 推理和集成。它動態選擇相關示例，利用 CoT 進行逐步推理，並通過多次模型運行的多數投票集成來提高準確性。元推理策略在推理過程中指導計算資源的分配，而外部資源整合（如檢索增強生成 (RAG)）則確保實時訪問相關信息。先進的提示技術和迭代推理框架，如自學推理器 (STaR)，進一步改善模型輸出，強調推理時間的擴展而非預訓練。多代理協作提供了複雜任務的協作解決方案。

這項研究評估了 o1-preview 模型在醫學基準測試上的表現，並將其與包括 Medprompt 增強策略的 GPT-4 模型進行比較。準確性是主要指標，評估的數據集包括 MedQA、MedMCQA、MMLU、NCLEX 和 JMLE-2024，以及 USMLE 的準備材料。結果顯示，o1-preview 通常超越 GPT-4，在推理密集型任務和多語言案例（如 JMLE-2024）中表現出色。提示策略，特別是集成，提升了表現，儘管少量提示可能會影響其效果。o1-preview 實現了高準確性，但相較於 GPT-4o，成本更高，後者在某些任務中提供了更好的性價比。這項研究突顯了在優化大型醫學語言模型時，準確性、價格和提示方法之間的權衡。

總結來說，OpenAI 的 o1-preview 模型顯著提升了 LLM 的表現，在醫學基準測試中實現了更高的準確性，而不需要複雜的提示策略。與使用 Medprompt 的 GPT-4 不同，o1-preview 減少了對像少量提示這樣的技術的依賴，這些技術有時會對表現產生負面影響。儘管集成仍然有效，但它需要仔細考量成本與效能之間的權衡。該模型建立了一個新的 Pareto 前沿，提供了更高質量的結果，而 GPT-4o 在某些任務中則提供了更具成本效益的替代方案。隨著 o1-preview 在現有基準上接近飽和，迫切需要更具挑戰性的評估，以進一步探索其能力，特別是在現實應用中。

新聞來源

本文由 AI 台灣使用 AI 編撰，內容僅供參考，請自行進行事實查核。加入 AI TAIWAN Google News，隨時掌握最新 AI 資訊！

Tags: 推進醫療人工智慧評估OpenAI的o1Preview模型及優化推理策略