星期五, 13 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

上海人工智慧實驗室發布 OREAL-7B 和 OREAL-32B:透過基於結果獎勵的強化學習推進數學推理

2025-02-11
in AI 綜合新聞
0 0
0
上海人工智慧實驗室發布 OREAL-7B 和 OREAL-32B:透過基於結果獎勵的強化學習推進數學推理
Share on FacebookShare on Twitter
Your Ad


數學推理對於人工智慧 (AI) 來說仍然是一個困難的領域,因為解決問題的過程很複雜,並且需要有條理和邏輯的思考。雖然大型語言模型 (LLMs) 已經取得了顯著的進展,但它們在需要多步推理的任務上常常會遇到困難。強化學習 (RL) 在提升這些能力方面顯示出希望,但傳統方法在獎勵稀疏且只有正確或錯誤的情況下面臨挑戰,提供的反饋有限。

上海人工智慧實驗室開發了基於結果獎勵的強化學習 (OREAL),這是一系列數學推理模型,包括 OREAL-7B 和 OREAL-32B。這個框架設計用於只有正確或錯誤的二元獎勵的情況。與依賴密集反饋的傳統 RL 方法不同,OREAL 使用最佳 N (BoN) 抽樣來進行行為克隆,並重新調整負獎勵以保持梯度一致性。

OREAL-7B 和 OREAL-32B 展示了較小的模型也能與更大的模型競爭。OREAL-7B 在 MATH-500 基準測試中達到了 94.0% 的 pass@1 分數,這一結果與之前的 32B 模型相當,而 OREAL-32B 則達到了 95.0% 的 pass@1,超越了之前通過蒸餾訓練的模型。

技術見解與優勢

OREAL 框架引入了幾個關鍵技術來改善數學推理:

  • 最佳 N 抽樣進行行為克隆:BoN 抽樣幫助選擇最佳的正向推理路徑,讓模型能從良好的解答中學習。
  • 負樣本的獎勵重塑:通過調整負獎勵,框架確保正確與錯誤樣本之間的梯度一致性,從而優化模型。
  • 基於標記的獎勵模型進行思考鏈推理:數學推理通常涉及長序列的邏輯步驟。OREAL 為關鍵推理標記分配重要性權重,解決稀疏二元反饋的挑戰。
  • 在政策強化學習:模型根據抽樣查詢動態自我調整,提高訓練效率和適應性。

這些技術使得訓練更加穩定,並在長序列推理任務中表現更佳,讓強化學習成為傳統蒸餾方法的可行替代方案。

性能與評估

OREAL 模型已在幾個基準上進行測試:

  • MATH-500 基準:

    • OREAL-7B 達到 94.0% 的 pass@1,這一表現水平之前僅在 32B 模型中見過。
    • OREAL-32B 達到 95.0% 的 pass@1,創造了數學推理的新標準。

  • AIME2024 和 OlympiadBench:

    • OREAL 模型超越多個基準,顯示出在各類問題上的強大泛化能力。

  • 與 OpenAI o 系列和 DeepSeek 模型的比較:

    • OREAL-32B 超越 DeepSeek-R1-Distill-Qwen-32B 和 OpenAI-o1-preview,展示了有效的訓練策略。
    • OREAL-7B 的結果與 QwQ-32B-Preview 和 OpenAI-o1-mini 相當,突顯了其強化學習方法的影響。

結論

上海人工智慧實驗室的 OREAL-7B 和 OREAL-32B 模型提供了一種精緻的強化學習方法來解決數學推理問題。通過最佳 N 抽樣、獎勵重塑和標記級別的重要性加權,這些模型即使在較小的規模下也能達到競爭力的表現。OREAL 框架為如何優化強化學習以應對複雜推理任務提供了寶貴的見解,暗示著改善 AI 在結構化領域問題解決能力的新方向。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: OREAL32B透過基於結果獎勵的強化學習推進數學推理OREAL7B上海人工智慧實驗室發布和
Previous Post

這篇AI論文探討長鏈思考推理:通過強化學習和監督微調增強大型語言模型

Next Post

持續教育在數據和科技中的重要性

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
持續教育在數據和科技中的重要性

持續教育在數據和科技中的重要性

六項汽車售後市場的新進展

六項汽車售後市場的新進展

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。