大型語言模型(LLMs)在數學和程式設計等領域展現了強大的推理能力,像是 ChatGPT、Claude 和 Gemini 等模型引起了廣泛關注。GPT-4 的發布進一步激發了人們對於透過改進推理技術來增強推理能力的興趣。在這方面的一個主要挑戰是讓 LLMs 能夠檢測並修正其輸出中的錯誤,這個過程稱為自我修正。雖然模型可以使用外部的真實獎勵信號來改進回應,但這種方法會增加計算負擔,因為需要在推理過程中運行多個模型。研究顯示,即使獎勵反饋來自代理模型,準確性仍然可以提高。然而,沒有外部指導的情況下,當前的 LLMs 僅依賴內在推理來自我修正時,表現仍然不穩定。最近的努力探索使用 LLMs 作為評估者,讓模型透過遵循指令的機制來生成獎勵信號,而不是使用預訓練的獎勵函數。
與自我獎勵對齊相關的研究探討了如何在單一 LLM 中整合回應生成和評估的方法。迭代微調方法使模型能夠標記其輸出,提供學習信號以驅動自我改進。自我修正的研究顯示,雖然教師輔助訓練能增強對話任務中的反思,但在沒有額外監督的情況下,內在自我修正對於推理仍然不可靠。大多數先前的工作依賴於外部獎勵模型來決定何時應該進行修正,這導致推理成本增加。基於規則的強化學習也被探索作為一種替代方案,最近的進展顯示某些預訓練模型自然展現出自我修正的行為。然而,跨不同架構複製這些結果仍然具有挑戰性,因為性能的提升通常與專有的訓練數據和專門的模型設計有關。
來自伊利諾伊大學香檳分校(University of Illinois Urbana-Champaign)和馬里蘭大學(University of Maryland, College Park)的研究人員探索 LLMs 中的自我獎勵推理,使其能夠生成推理步驟、評估其正確性,並在沒有外部反饋的情況下改進回應。他們的兩階段框架首先使用序列拒絕抽樣來構建長的思考鏈(CoT)軌跡,這些軌跡嵌入了自我獎勵和自我修正的行為。對這些數據進行微調幫助模型學習這些模式,進一步通過基於規則的信號進行強化學習來改進。對 Llama-3 和 Qwen-2.5 的實驗顯示,這種方法增強了自我修正,並達到依賴外部獎勵的模型的性能。
在語言模型中,自我獎勵推理被框架為多輪馬可夫決策過程(MDP)。模型生成初始回應並評估其答案。如果被認為正確,則停止;否則,則反覆改進回應。這種方法遵循兩階段的訓練框架:自我獎勵指令微調(IFT)和強化學習(RL)。IFT 階段涉及序列拒絕抽樣來收集推理軌跡,而 RL 則使用 KL 正則化訓練來優化正確性評估。與傳統的強化學習人類反饋(RLHF)不同,這種方法使用神諭獎勵來防止獎勵操控。實驗證明,這在通過結構化的自我修正和驗證過程來提高數學推理準確性方面是有效的。
這項研究使用 MATH500、OlympiadBench 和 Minerva Math 等數據集來評估數學推理模型的表現,透過初始和最終準確性、自我修正改進和獎勵模型準確性等指標進行評估。基準方法如 STaR/RAFT 和內在自我修正顯示效果有限,經常導致不必要的修改和準確性下降。相比之下,自我獎勵推理模型持續提高準確性和修正效率,同時最小化錯誤變更。對自生成的修正進行微調顯著提高了模型在不過度修正的情況下修正錯誤的能力。這種方法通過整合自我獎勵信號,超越了傳統方法,導致更可靠的數學推理能力。
總結來說,這項研究介紹了一個自我獎勵推理框架,改善了 LLMs 的自我修正和計算效率。通過整合自我獎勵 IFT 和強化學習,模型能夠使用過去的嘗試和內部獎勵信號來檢測和修正錯誤。對 Llama-3 和 Qwen-2.5 的實驗顯示其性能優於內在自我修正。未來的改進包括解決獎勵模型準確性問題、加強後期訓練階段的強化學習,以及探索多輪強化學習方法。一種兩階段的方法——序列拒絕抽樣用於推理模式,基於規則的信號進行強化學習——使得在沒有外部反饋的情況下逐步修正成為可能,為數學推理提供了一個可擴展且高效的解決方案。
查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,歡迎在 Twitter 上關注我們,別忘了加入我們的 80,000+ 人工智慧子版塊。
🚨 推薦閱讀 – LG AI 研究發布 NEXUS:一個先進系統,整合代理人工智慧系統和數據合規標準,以解決人工智慧數據集中的法律問題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!