大型語言模型(LLMs)在解決複雜任務的推理能力上取得了顯著的進展。像是 OpenAI 的 o1 和 DeepSeek 的 R1 等模型,在競賽數學、競爭編程和 GPQA 等挑戰性推理基準上有了很大的改善,但在評估它們真正的推理潛力方面仍然存在重要的限制。目前的推理數據集主要集中在解決問題的任務上,但未能涵蓋需要開放式推理的領域。此外,這些數據集在規模和難度上缺乏多樣性,使得在不同領域和複雜程度上評估和提升 LLM 的推理能力變得困難。
之前提升 LLM 推理能力的嘗試主要集中在兩個方法上:合成數據生成和無監督自我訓練。在合成數據生成中,STaR 和 MetaMath 方法通過新增的思考鏈推理和問題變體來增強現有數據集,但它們在很大程度上依賴於已有的高質量數據集。雖然像 OpenMathInstruct-2、NuminaMath 和 Xwin-Math 等方法從種子範例中生成新數據,但在擴展到新領域時遇到困難。在無監督自我訓練中,大多數方法依賴於人類標註的最終答案或外部獎勵模型,這使得它們資源密集且成本高,特別是對於需要人類評估 LLM 輸出的複雜多步問題。
來自 Meta 和紐約大學的研究人員提出了 NATURALREASONING,這是一個包含 280 萬個推理問題的綜合數據集,這些問題是從預訓練語料庫中提取的。這個數據集涵蓋了數學、物理、計算機科學和經濟與商業等多個領域。與 MetaMathQA 和 OpenMathInstruct-2 等合成數據集不同,NATURALREASONING 代表了真實世界的推理問題,通過從預訓練語料庫的反向翻譯來實現。它獨特地結合了可驗證和開放式問題,包括定理證明,這使它對於開發能提升 LLM 推理能力的算法非常有價值,超越了簡單的驗證任務,並能夠從強模型向弱模型進行知識蒸餾。
NATURALREASONING 方法的有效性以兩種方式顯示出來,以增強推理能力。首先,它利用知識蒸餾和監督微調來實現比現有數據集更陡峭的擴展趨勢。其次,它作為特定領域種子數據提取的來源。針對科學推理基準如 GPQA,該方法從 NATURALREASONING 中抽取 250 個基準問題,並使用問題嵌入之間的餘弦相似度檢索 1000 個相似的去污問題。這些問題然後被去重並聚類成 15000 個組。評估協議使用零樣本測試,涵蓋 MATH、GPQA、GPQA-Diamond 和 MMLUPro 等多個基準,並使用貪婪解碼進行一致的性能測量。
評估結果顯示,僅用 150 萬個訓練範例,基於 NATURALREASONING 訓練的模型超越了 Llama3.1-8B-Instruct,但其他數據集如 OpenMathInstruct-2 和 WebInstruct 即使擁有 280 萬數據點也未能達到可比的性能。雖然像 OpenMathInstruct-2 這樣的數學特定數據集在數學基準上表現強勁(在 MATH 上從 50.83 提升到 59.25),但它們在泛化方面遇到困難,GPQA 的準確率在 26-27% 附近平穩,而 MMLU-Pro 的表現不穩定。此外,像 WebInstruct 這樣的數據集顯示出收益遞減的情況,GPQA 的表現在 50 萬樣本時達到 29.02%,但在 280 萬樣本時下降到 26.12%。
總結來說,研究人員推出了 NATURALREASONING,這是一個在開發全面推理數據集方面的重大進展。該數據集的 280 萬個問題涵蓋了數學、物理、計算機科學、經濟學和社會科學等多個領域。結果顯示,使用 NATURALREASONING 方法進行知識蒸餾,隨著數據量的增加,推理基準性能一致改善。它的有效性還擴展到通過外部獎勵模型和自我獎勵技術實現 LLM 的無監督自我訓練,這標誌著在提升 LLM 在不同領域推理能力方面邁出了一步。
新聞來源
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!