上海人工智慧實驗室發布 OREAL-7B 和 OREAL-32B：透過基於結果獎勵的強化學習推進數學推理

數學推理對於人工智慧 (AI) 來說仍然是一個困難的領域，因為解決問題的過程很複雜，並且需要有條理和邏輯的思考。雖然大型語言模型 (LLMs) 已經取得了顯著的進展，但它們在需要多步推理的任務上常常會遇到困難。強化學習 (RL) 在提升這些能力方面顯示出希望，但傳統方法在獎勵稀疏且只有正確或錯誤的情況下面臨挑戰，提供的反饋有限。

上海人工智慧實驗室開發了基於結果獎勵的強化學習 (OREAL)，這是一系列數學推理模型，包括 OREAL-7B 和 OREAL-32B。這個框架設計用於只有正確或錯誤的二元獎勵的情況。與依賴密集反饋的傳統 RL 方法不同，OREAL 使用最佳 N (BoN) 抽樣來進行行為克隆，並重新調整負獎勵以保持梯度一致性。

OREAL-7B 和 OREAL-32B 展示了較小的模型也能與更大的模型競爭。OREAL-7B 在 MATH-500 基準測試中達到了 94.0% 的 pass@1 分數，這一結果與之前的 32B 模型相當，而 OREAL-32B 則達到了 95.0% 的 pass@1，超越了之前通過蒸餾訓練的模型。

技術見解與優勢

OREAL 框架引入了幾個關鍵技術來改善數學推理：

最佳 N 抽樣進行行為克隆：BoN 抽樣幫助選擇最佳的正向推理路徑，讓模型能從良好的解答中學習。

負樣本的獎勵重塑：通過調整負獎勵，框架確保正確與錯誤樣本之間的梯度一致性，從而優化模型。

基於標記的獎勵模型進行思考鏈推理：數學推理通常涉及長序列的邏輯步驟。OREAL 為關鍵推理標記分配重要性權重，解決稀疏二元反饋的挑戰。

在政策強化學習：模型根據抽樣查詢動態自我調整，提高訓練效率和適應性。

這些技術使得訓練更加穩定，並在長序列推理任務中表現更佳，讓強化學習成為傳統蒸餾方法的可行替代方案。

性能與評估

OREAL 模型已在幾個基準上進行測試：

MATH-500 基準：
- OREAL-7B 達到 94.0% 的 pass@1，這一表現水平之前僅在 32B 模型中見過。
- OREAL-32B 達到 95.0% 的 pass@1，創造了數學推理的新標準。

AIME2024 和 OlympiadBench：
- OREAL 模型超越多個基準，顯示出在各類問題上的強大泛化能力。

與 OpenAI o 系列和 DeepSeek 模型的比較：
- OREAL-32B 超越 DeepSeek-R1-Distill-Qwen-32B 和 OpenAI-o1-preview，展示了有效的訓練策略。
- OREAL-7B 的結果與 QwQ-32B-Preview 和 OpenAI-o1-mini 相當，突顯了其強化學習方法的影響。

結論

上海人工智慧實驗室的 OREAL-7B 和 OREAL-32B 模型提供了一種精緻的強化學習方法來解決數學推理問題。通過最佳 N 抽樣、獎勵重塑和標記級別的重要性加權，這些模型即使在較小的規模下也能達到競爭力的表現。OREAL 框架為如何優化強化學習以應對複雜推理任務提供了寶貴的見解，暗示著改善 AI 在結構化領域問題解決能力的新方向。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！