星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

Meta AI 發布「自然推理」:一個擁有 280 萬問題的多領域數據集,以提升大型語言模型的推理能力

2025-02-22
in AI 綜合新聞
0 0
0
Meta AI 發布「自然推理」:一個擁有 280 萬問題的多領域數據集,以提升大型語言模型的推理能力
Share on FacebookShare on Twitter
Your Ad



大型語言模型(LLMs)在解決複雜任務的推理能力上取得了顯著的進展。像是 OpenAI 的 o1 和 DeepSeek 的 R1 等模型,在競賽數學、競爭編程和 GPQA 等挑戰性推理基準上有了很大的改善,但在評估它們真正的推理潛力方面仍然存在重要的限制。目前的推理數據集主要集中在解決問題的任務上,但未能涵蓋需要開放式推理的領域。此外,這些數據集在規模和難度上缺乏多樣性,使得在不同領域和複雜程度上評估和提升 LLM 的推理能力變得困難。

之前提升 LLM 推理能力的嘗試主要集中在兩個方法上:合成數據生成和無監督自我訓練。在合成數據生成中,STaR 和 MetaMath 方法通過新增的思考鏈推理和問題變體來增強現有數據集,但它們在很大程度上依賴於已有的高質量數據集。雖然像 OpenMathInstruct-2、NuminaMath 和 Xwin-Math 等方法從種子範例中生成新數據,但在擴展到新領域時遇到困難。在無監督自我訓練中,大多數方法依賴於人類標註的最終答案或外部獎勵模型,這使得它們資源密集且成本高,特別是對於需要人類評估 LLM 輸出的複雜多步問題。

來自 Meta 和紐約大學的研究人員提出了 NATURALREASONING,這是一個包含 280 萬個推理問題的綜合數據集,這些問題是從預訓練語料庫中提取的。這個數據集涵蓋了數學、物理、計算機科學和經濟與商業等多個領域。與 MetaMathQA 和 OpenMathInstruct-2 等合成數據集不同,NATURALREASONING 代表了真實世界的推理問題,通過從預訓練語料庫的反向翻譯來實現。它獨特地結合了可驗證和開放式問題,包括定理證明,這使它對於開發能提升 LLM 推理能力的算法非常有價值,超越了簡單的驗證任務,並能夠從強模型向弱模型進行知識蒸餾。

NATURALREASONING 方法的有效性以兩種方式顯示出來,以增強推理能力。首先,它利用知識蒸餾和監督微調來實現比現有數據集更陡峭的擴展趨勢。其次,它作為特定領域種子數據提取的來源。針對科學推理基準如 GPQA,該方法從 NATURALREASONING 中抽取 250 個基準問題,並使用問題嵌入之間的餘弦相似度檢索 1000 個相似的去污問題。這些問題然後被去重並聚類成 15000 個組。評估協議使用零樣本測試,涵蓋 MATH、GPQA、GPQA-Diamond 和 MMLUPro 等多個基準,並使用貪婪解碼進行一致的性能測量。

評估結果顯示,僅用 150 萬個訓練範例,基於 NATURALREASONING 訓練的模型超越了 Llama3.1-8B-Instruct,但其他數據集如 OpenMathInstruct-2 和 WebInstruct 即使擁有 280 萬數據點也未能達到可比的性能。雖然像 OpenMathInstruct-2 這樣的數學特定數據集在數學基準上表現強勁(在 MATH 上從 50.83 提升到 59.25),但它們在泛化方面遇到困難,GPQA 的準確率在 26-27% 附近平穩,而 MMLU-Pro 的表現不穩定。此外,像 WebInstruct 這樣的數據集顯示出收益遞減的情況,GPQA 的表現在 50 萬樣本時達到 29.02%,但在 280 萬樣本時下降到 26.12%。

總結來說,研究人員推出了 NATURALREASONING,這是一個在開發全面推理數據集方面的重大進展。該數據集的 280 萬個問題涵蓋了數學、物理、計算機科學、經濟學和社會科學等多個領域。結果顯示,使用 NATURALREASONING 方法進行知識蒸餾,隨著數據量的增加,推理基準性能一致改善。它的有效性還擴展到通過外部獎勵模型和自我獎勵技術實現 LLM 的無監督自我訓練,這標誌著在提升 LLM 在不同領域推理能力方面邁出了一步。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: meta發布自然推理一個擁有萬問題的多領域數據集以提升大型語言模型的推理能力
Previous Post

Google DeepMind 研究發布 SigLIP2:一系列新的多語言視覺-語言編碼器,具備改進的語義理解、定位和密集特徵

Next Post

麻省理工學院的昆蟲大小機器人重新設計的翅膀飛行時間延長100倍

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
麻省理工學院的昆蟲大小機器人重新設計的翅膀飛行時間延長100倍

麻省理工學院的昆蟲大小機器人重新設計的翅膀飛行時間延長100倍

人性化人工智慧針下週將成為電子垃圾

人性化人工智慧針下週將成為電子垃圾

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。