星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

推進醫療人工智慧:評估OpenAI的o1-Preview模型及優化推理策略

2024-12-05
in AI 綜合新聞
0 0
0
推進醫療人工智慧:評估OpenAI的o1-Preview模型及優化推理策略
Share on FacebookShare on Twitter
Your Ad


Medprompt 是一種運行時引導策略,顯示了如何引導通用的大型語言模型 (LLM) 在專業領域如醫學中達到最先進的表現。透過使用結構化的多步驟提示技術,例如思考鏈 (CoT) 推理、精心挑選的少量示例和選擇隨機組合,Medprompt 彌補了通用模型和專業模型之間的差距。這種方法顯著提高了在醫學基準測試(如 MedQA)上的表現,錯誤率減少了近 50%,而不需要對模型進行微調。OpenAI 的 o1-preview 模型進一步展示了 LLM 設計的進步,通過結合運行時推理動態地改善輸出,超越了傳統的 CoT 策略來處理複雜任務。

歷史上,針對特定領域的預訓練對於在專業領域獲得高效能是必須的,這在像 PubMedBERT 和 BioGPT 的模型中得到了體現。然而,隨著大型通用模型如 GPT-4 的興起,這一範式發生了變化,這些模型在像美國醫學執照考試 (USMLE) 這樣的任務上超越了專業模型。像 Medprompt 這樣的策略通過整合動態提示方法來提高通用模型的表現,使得像 GPT-4 這樣的模型在醫學基準測試中取得更好的結果。儘管像 Med-PaLM 和 Med-Gemini 這樣的微調醫學模型有所進步,但通用方法結合了精緻的推理時間策略,如 Medprompt 和 o1-preview,為高風險領域提供了可擴展和有效的解決方案。

微軟和 OpenAI 的研究人員評估了 o1-preview 模型,這代表了 AI 設計的一次轉變,通過在訓練過程中結合 CoT 推理。這種「推理原生」的方法使得在推理時能夠逐步解決問題,減少了對像 Medprompt 這樣的提示工程技術的依賴。他們的研究發現,o1-preview 在醫學基準測試中超越了 GPT-4,即使使用了 Medprompt,少量提示反而會影響其表現,這表明在這類模型中,上下文學習的效果較差。儘管像集成這樣的資源密集型策略仍然可行,但 o1-preview 以更高的成本達到了最先進的結果。這些發現突顯了對新基準的需求,以挑戰推理原生模型並改善推理時間的優化。

Medprompt 是一個旨在優化通用模型(如 GPT-4)在專業領域(如醫學)表現的框架,通過結合動態少量提示、CoT 推理和集成。它動態選擇相關示例,利用 CoT 進行逐步推理,並通過多次模型運行的多數投票集成來提高準確性。元推理策略在推理過程中指導計算資源的分配,而外部資源整合(如檢索增強生成 (RAG))則確保實時訪問相關信息。先進的提示技術和迭代推理框架,如自學推理器 (STaR),進一步改善模型輸出,強調推理時間的擴展而非預訓練。多代理協作提供了複雜任務的協作解決方案。

這項研究評估了 o1-preview 模型在醫學基準測試上的表現,並將其與包括 Medprompt 增強策略的 GPT-4 模型進行比較。準確性是主要指標,評估的數據集包括 MedQA、MedMCQA、MMLU、NCLEX 和 JMLE-2024,以及 USMLE 的準備材料。結果顯示,o1-preview 通常超越 GPT-4,在推理密集型任務和多語言案例(如 JMLE-2024)中表現出色。提示策略,特別是集成,提升了表現,儘管少量提示可能會影響其效果。o1-preview 實現了高準確性,但相較於 GPT-4o,成本更高,後者在某些任務中提供了更好的性價比。這項研究突顯了在優化大型醫學語言模型時,準確性、價格和提示方法之間的權衡。

總結來說,OpenAI 的 o1-preview 模型顯著提升了 LLM 的表現,在醫學基準測試中實現了更高的準確性,而不需要複雜的提示策略。與使用 Medprompt 的 GPT-4 不同,o1-preview 減少了對像少量提示這樣的技術的依賴,這些技術有時會對表現產生負面影響。儘管集成仍然有效,但它需要仔細考量成本與效能之間的權衡。該模型建立了一個新的 Pareto 前沿,提供了更高質量的結果,而 GPT-4o 在某些任務中則提供了更具成本效益的替代方案。隨著 o1-preview 在現有基準上接近飽和,迫切需要更具挑戰性的評估,以進一步探索其能力,特別是在現實應用中。



新聞來源

本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!

Tags: 推進醫療人工智慧評估OpenAI的o1Preview模型及優化推理策略
Previous Post

OpenAI 正在與 Anduril 合作,為美國軍方提供人工智慧

Next Post

MIT 代表團在聯合國生物多樣性公約第十六次締約方會議中推動生物多樣性保護 | MIT 新聞

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
MIT 代表團在聯合國生物多樣性公約第十六次締約方會議中推動生物多樣性保護 | MIT 新聞

MIT 代表團在聯合國生物多樣性公約第十六次締約方會議中推動生物多樣性保護 | MIT 新聞

降低實際風險的基本解決方案

降低實際風險的基本解決方案

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。