阿里巴巴 Qwen 團隊剛發布《數學推理中開發過程獎勵模型的課程》，以及最先進的 7B 和 72B PRMs

數學推理一直是大型語言模型 (LLMs) 面臨的一個重大挑戰。在推理過程中的錯誤會影響最終結果的準確性和可靠性，這對於需要精確度的應用（如教育和科學計算）特別有問題。傳統的評估方法，例如最佳 N (BoN) 策略，往往無法捕捉推理過程的複雜性。因此，研究人員開發了過程獎勵模型 (PRMs)，旨在通過評估中間步驟的正確性來提供詳細的監督。然而，建立有效的 PRMs 仍然是一項困難的任務，主要是因為數據標註和評估方法的挑戰。這些障礙突顯了需要更好地與穩健的過程驅動推理相一致的模型。

阿里巴巴 Qwen 團隊最近發表了一篇題為《數學推理中開發過程獎勵模型的教訓》的論文。他們在這項研究中介紹了兩個具有 7B 和 72B 參數的 PRMs，這是他們 Qwen2.5-Math-PRM 系列的一部分。這些模型解決了現有 PRM 框架中的重大限制，採用創新技術來提高推理模型的準確性和泛化能力。

他們的方法的核心是一種混合方法，將蒙特卡羅 (Monte Carlo, MC) 估計與一種新穎的「LLM 作為評判者」機制相結合。這種整合提高了逐步標註的質量，使得最終的 PRMs 更有效地識別和減少數學推理中的錯誤。這些模型在 PROCESSBENCH 等基準測試中表現出色，該測試評估模型識別中間推理錯誤的能力。

技術創新與好處

Qwen 團隊的方法涉及使用微調的 LLM 生成數學問題的多個解決方案，並通過雙重方法評估每一步的正確性。這種方法解決了傳統 MC 估計的局限性，因為它通常依賴未來的結果而產生不準確的標籤。

主要創新包括：

共識過濾：這種機制僅在 MC 估計和 LLM 作為評判者都同意步驟的正確性時保留數據，顯著減少了訓練過程中的噪音。

硬標註：由兩種機制驗證的確定性標籤增強了模型區分有效和無效推理步驟的能力。

高效數據利用：通過將 MC 估計與 LLM 作為評判者相結合，共識過濾策略確保了高質量數據，同時保持可擴展性。這種方法使得即使在較小的數據集上也能開發出表現良好的 PRMs。

這些創新促進了不僅準確而且穩健的 PRMs 的創建，使其適合於自動輔導和複雜問題解決等應用。

結果與見解

Qwen2.5-Math-PRM 模型在 PROCESSBENCH 和其他評估指標上表現出色。例如，Qwen2.5-Math-PRM-72B 模型的 F1 分數達到 78.3%，超過了許多開源替代品。在需要逐步識別錯誤的任務中，它的表現超過了像 GPT-4-0806 這樣的專有模型。

共識過濾方法在提高訓練質量方面發揮了關鍵作用，將數據噪音減少了約 60%。雖然僅依賴 MC 估計可能有幫助，但對於準確標註推理步驟來說是不夠的。將 MC 估計與 LLM 作為評判者相結合顯著提高了模型檢測錯誤的能力，這在 PROCESSBENCH 分數的提升中得到了體現。

Qwen2.5-Math-PRM 系列還強調了逐步評估，而不是基於結果的 BoN 策略。這一轉變解決了早期模型的不足，這些模型往往優先考慮最終答案，而忽視了推理的準確性。

結論

Qwen2.5-Math-PRM 模型的引入代表了 LLM 在數學推理方面的重大進展。通過解決 PRM 開發中的挑戰，例如噪音數據標註和過程到結果的偏見，阿里巴巴 Qwen 團隊提供了一個實用的框架來提高推理的準確性和可靠性。這些模型不僅超越了現有的替代品，還為未來的研究提供了有價值的方法論。隨著 PRMs 的持續進步，它們在更廣泛的人工智慧應用中的潛力將提升機器推理系統的可靠性和有效性。

查看 Hugging Face 上的論文和模型。所有的研究成果都歸功於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。還有，別忘了加入我們的 65k+ 機器學習 SubReddit。

🚨 推薦開源平台：Parlant 是一個框架，改變了 AI 代理在面對客戶場景中做決策的方式。（廣告）

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！