大型語言模型在理解和生成類似人類的文本方面取得了重大進展。然而,當涉及到複雜的推理任務,特別是需要多步計算或邏輯分析的情況時,它們經常會遇到困難。傳統的思考鏈(CoT)方法通過將問題分解為中間步驟來幫助解決,但這些方法過於依賴模型的內部推理。這種內部依賴有時會導致錯誤,特別是在複雜計算或需要多個推理步驟的情況下。在這些情況下,微小的錯誤可能會累積,導致結果不如預期。顯然,需要一種能夠驗證和調整自身推理的方法,尤其是在科學分析或競賽級數學等任務中。
阿里巴巴的研究人員提出了一種新的人工智慧工具,名為START,代表自學推理者與工具(Self-Taught Reasoner with Tools)。START不僅依賴內部邏輯,還整合了一個外部的Python解釋器來協助推理任務。該模型基於經過微調的QwQ-32B模型,並採用雙重策略來提高其解決問題的能力。首先,它使用一種稱為提示推理(Hint-infer)的方法。在這裡,模型被鼓勵加入提示,例如“等等,或許在這裡使用Python是個好主意”,這些提示表明它應該進行計算或使用外部工具自我檢查。其次,模型經歷了一個稱為提示拒絕取樣微調(Hint-RFT)的微調過程。這個過程通過根據模型能否有效調用外部工具來篩選和修改其輸出,來完善模型的推理。最終的結果是,這個模型不僅能生成邏輯思考的鏈條,還能通過外部計算來驗證其步驟。
START的核心是思考鏈方法的進化。它的兩階段訓練過程旨在幫助模型將外部工具作為其推理過程的自然延伸。在第一階段,提示推理允許模型整合提示,促使工具的使用。這些提示在模型可能重新考慮其方法的地方策略性地插入,通常是在“或者”或“等等”等過渡詞之後。這鼓勵模型使用Python代碼來驗證其推理,必要時進行自我修正。
在第二階段,提示RFT對這些提示生成的輸出進行精煉。通過對推理步驟進行評分和篩選,模型學會了更好地決定何時以及如何調用外部工具。這一過程中精煉的數據集隨後用於進一步微調模型,最終形成了我們現在稱之為START的QwQ-32B版本。外部計算的整合是一個深思熟慮的補充,有助於最小化錯誤,確保模型的推理既連貫又更可靠。
研究人員在一系列任務上評估了START,包括研究生級的科學問題、挑戰性的數學問題和編程任務。在這些領域中,START顯示出相對於其基礎模型的顯著改善。例如,在一組博士級的科學問題中,該模型的準確率達到了63.6%,這是對原始模型表現的適度但有意義的改善。在數學基準測試中,從高中級別到競賽問題,準確率的改善同樣令人鼓舞。這些結果表明,能夠整合外部驗證可以導致更好的問題解決,特別是在精確性至關重要的任務中。
在編程挑戰中,START的方法使其能夠生成和測試代碼片段,從而導致正確解決方案的比率高於僅依賴內部推理的模型。總的來說,這項研究表明,在推理過程中整合工具的使用可以幫助模型產生更準確和可驗證的結果。
START的發展為解決大型語言模型中固有的複雜推理挑戰提供了一個深思熟慮的進步。通過將內部思考鏈推理與外部工具整合相結合,該模型為一些持續存在的計算和邏輯任務問題提供了實用的解決方案。這種方法既簡單又優雅:鼓勵模型使用外部Python解釋器自我檢查其工作,然後根據這一能力進行微調,導致在各種基準測試中的性能改善。
這項工作是一個有希望的例子,展示了如何通過逐步改進(在這種情況下是使用戰略提示和外部計算)顯著提高語言模型推理的可靠性。它表明,通過深思熟慮地整合外部工具,我們可以引導模型朝著更準確和可靠的結果邁進,特別是在精確計算和邏輯嚴謹性至關重要的領域。START背後的工作是朝著更具能力且更具反思性和自我修正的問題解決方法邁出的一步。
查看論文。這項研究的所有功勞歸功於這個項目的研究人員。此外,隨時在Twitter上關注我們,別忘了加入我們的80k+機器學習SubReddit。
新聞來源
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!