Meta AI 發布「自然推理」：一個擁有 280 萬問題的多領域數據集，以提升大型語言模型的推理能力

大型語言模型（LLMs）在解決複雜任務的推理能力上取得了顯著的進展。像是 OpenAI 的 o1 和 DeepSeek 的 R1 等模型，在競賽數學、競爭編程和 GPQA 等挑戰性推理基準上有了很大的改善，但在評估它們真正的推理潛力方面仍然存在重要的限制。目前的推理數據集主要集中在解決問題的任務上，但未能涵蓋需要開放式推理的領域。此外，這些數據集在規模和難度上缺乏多樣性，使得在不同領域和複雜程度上評估和提升 LLM 的推理能力變得困難。

之前提升 LLM 推理能力的嘗試主要集中在兩個方法上：合成數據生成和無監督自我訓練。在合成數據生成中，STaR 和 MetaMath 方法通過新增的思考鏈推理和問題變體來增強現有數據集，但它們在很大程度上依賴於已有的高質量數據集。雖然像 OpenMathInstruct-2、NuminaMath 和 Xwin-Math 等方法從種子範例中生成新數據，但在擴展到新領域時遇到困難。在無監督自我訓練中，大多數方法依賴於人類標註的最終答案或外部獎勵模型，這使得它們資源密集且成本高，特別是對於需要人類評估 LLM 輸出的複雜多步問題。

來自 Meta 和紐約大學的研究人員提出了 NATURALREASONING，這是一個包含 280 萬個推理問題的綜合數據集，這些問題是從預訓練語料庫中提取的。這個數據集涵蓋了數學、物理、計算機科學和經濟與商業等多個領域。與 MetaMathQA 和 OpenMathInstruct-2 等合成數據集不同，NATURALREASONING 代表了真實世界的推理問題，通過從預訓練語料庫的反向翻譯來實現。它獨特地結合了可驗證和開放式問題，包括定理證明，這使它對於開發能提升 LLM 推理能力的算法非常有價值，超越了簡單的驗證任務，並能夠從強模型向弱模型進行知識蒸餾。

NATURALREASONING 方法的有效性以兩種方式顯示出來，以增強推理能力。首先，它利用知識蒸餾和監督微調來實現比現有數據集更陡峭的擴展趨勢。其次，它作為特定領域種子數據提取的來源。針對科學推理基準如 GPQA，該方法從 NATURALREASONING 中抽取 250 個基準問題，並使用問題嵌入之間的餘弦相似度檢索 1000 個相似的去污問題。這些問題然後被去重並聚類成 15000 個組。評估協議使用零樣本測試，涵蓋 MATH、GPQA、GPQA-Diamond 和 MMLUPro 等多個基準，並使用貪婪解碼進行一致的性能測量。

評估結果顯示，僅用 150 萬個訓練範例，基於 NATURALREASONING 訓練的模型超越了 Llama3.1-8B-Instruct，但其他數據集如 OpenMathInstruct-2 和 WebInstruct 即使擁有 280 萬數據點也未能達到可比的性能。雖然像 OpenMathInstruct-2 這樣的數學特定數據集在數學基準上表現強勁（在 MATH 上從 50.83 提升到 59.25），但它們在泛化方面遇到困難，GPQA 的準確率在 26-27% 附近平穩，而 MMLU-Pro 的表現不穩定。此外，像 WebInstruct 這樣的數據集顯示出收益遞減的情況，GPQA 的表現在 50 萬樣本時達到 29.02%，但在 280 萬樣本時下降到 26.12%。

總結來說，研究人員推出了 NATURALREASONING，這是一個在開發全面推理數據集方面的重大進展。該數據集的 280 萬個問題涵蓋了數學、物理、計算機科學、經濟學和社會科學等多個領域。結果顯示，使用 NATURALREASONING 方法進行知識蒸餾，隨著數據量的增加，推理基準性能一致改善。它的有效性還擴展到通過外部獎勵模型和自我獎勵技術實現 LLM 的無監督自我訓練，這標誌著在提升 LLM 在不同領域推理能力方面邁出了一步。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！