星期一, 16 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

開放推理者零:大型推理導向強化學習訓練的開源實現

2025-02-25
in AI 綜合新聞
0 0
0
開放推理者零:大型推理導向強化學習訓練的開源實現
Share on FacebookShare on Twitter
Your Ad


大型強化學習(RL)訓練語言模型以解決推理任務已成為掌握複雜問題解決技能的一種有前景的技術。目前,像是 OpenAI 的 o1 和 DeepSeek 的 R1-Zero 等方法,已展示出顯著的訓練時間擴展現象。這兩個模型的基準表現和回應長度隨著訓練計算的增加而穩定上升,沒有任何飽和的跡象。受到這些進展的啟發,本文的研究人員探索了這種新的擴展現象,直接在基礎模型上進行大型 RL 訓練,並將這種方法稱為 Reasoner-Zero 訓練。

來自 StepFun 和清華大學的研究人員提出了 Open-Reasoner-Zero(ORZ),這是一個開源的大型推理導向 RL 訓練實現,專為語言模型設計。這代表著在讓更廣泛的研究社群能夠接觸到先進的 RL 訓練技術方面的一個重大進展。ORZ 在可驗證的獎勵下增強了多樣的推理技能,包括算術、邏輯、編程和常識推理任務。它通過全面的訓練策略解決了訓練穩定性、回應長度優化和基準表現提升等關鍵挑戰。與之前提供有限實施細節的方法不同,ORZ 提供了其方法論和最佳實踐的詳細見解。

ORZ 框架使用 Qwen2.5-{7B, 32B} 作為基礎模型,並實施直接的大型 RL 訓練,而不需要初步的微調步驟。該系統利用了標準 PPO 算法的擴展版本,專門針對推理導向任務進行優化。訓練數據集由精心策劃的問題-答案對組成,重點關注 STEM、數學和多樣的推理任務。架構包含一個專門的提示模板,旨在增強推理計算能力。實施基於 OpenRLHF,具有顯著的改進,包括靈活的訓練器、GPU 協同生成和先進的卸載-加載支持機制,以實現高效的大型訓練。

訓練結果顯示,Open-Reasoner-Zero 在多個指標上對 7B 和 32B 變體的表現都有顯著提升。訓練曲線顯示獎勵指標和回應長度的穩定增強,並且出現了顯著的「階段時刻」現象,表明推理能力的突然提升。在回應長度擴展與 DeepSeek-R1-Zero 的比較中,Open-Reasoner-Zero-32B 模型在訓練步驟僅為 1/5.8 的情況下,達到了與 DeepSeek-R1-Zero(671B MoE)相當的回應長度。這種效率驗證了簡約方法在大型 RL 訓練中的有效性。

主要實驗結果顯示,Open-Reasoner-Zero 在多個評估指標上表現優異,特別是在 32B 配置中。它在 GPQA DIAMOND 基準上相比 DeepSeek-R1-Zero-Qwen2.5-32B 獲得了更好的結果,訓練步驟僅需 1/30,展現出驚人的訓練效率。此外,7B 變體展現出有趣的學習動態,準確性穩定提高,回應長度增長模式劇烈。在評估過程中觀察到一種獨特的「階段時刻」現象,特徵是獎勵和回應長度的突然增加,特別在 GPQA DIAMOND 和 AIME2024 基準中尤為明顯。

在這篇論文中,研究人員介紹了 Open-Reasoner-Zero,這代表著在民主化大型推理導向 RL 訓練語言模型方面的一個重要里程碑。研究顯示,使用普通的 PPO 結合 GAE 和基於規則的獎勵函數的簡化方法可以達到與更複雜系統相當的結果。成功的實施不需要 KL 正則化,證明了為了獲得強大的推理能力,可能不需要複雜的架構修改。通過開源完整的訓練流程並分享詳細見解,這項工作為未來在擴展語言模型推理能力的研究奠定了基礎,這僅僅是 AI 發展中新擴展趨勢的開始。

查看論文和 GitHub 頁面。所有的研究成果都歸功於這個項目的研究人員。此外,隨時歡迎在 Twitter 上關注我們,別忘了加入我們的 80k+ 機器學習 SubReddit。

🚨 推薦閱讀 – LG AI 研究發布 NEXUS:一個先進的系統,整合代理 AI 系統和數據合規標準,以解決 AI 數據集中的法律問題



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 開放推理者零大型推理導向強化學習訓練的開源實現
Previous Post

MIA-Bench:朝向更佳的多模態大型語言模型指令跟隨評估

Next Post

人工智慧如何被用來監視員工

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
人工智慧如何被用來監視員工

人工智慧如何被用來監視員工

朋友是電動的嗎? | 麻省理工科技評論

朋友是電動的嗎? | 麻省理工科技評論

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。