星期五, 13 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

這篇AI論文探討長鏈思考推理:通過強化學習和監督微調增強大型語言模型

2025-02-11
in AI 綜合新聞
0 0
0
這篇AI論文探討長鏈思考推理:通過強化學習和監督微調增強大型語言模型
Share on FacebookShare on Twitter
Your Ad


大型語言模型 (LLMs) 在數學、科學研究和軟體工程等複雜問題的解決上展現了高超的能力。思考鏈 (CoT) 提示在引導模型通過中間推理步驟達成結論中扮演了重要角色。強化學習 (RL) 是另一個關鍵組成部分,使模型能夠進行結構化推理,讓模型能有效識別和修正錯誤。儘管有這些進展,延長 CoT 的長度同時保持準確性仍然是一個挑戰,特別是在結構化推理至關重要的專業領域中。

提升 LLMs 推理能力的一個關鍵問題在於生成長且結構化的思考鏈。現有模型在需要迭代推理的高複雜度任務中表現不佳,例如博士級的科學問題解決和競賽數學。僅僅擴大模型的大小和訓練數據並不保證能改善 CoT 的能力。此外,基於 RL 的訓練需要精確的獎勵設計,因為不當的獎勵機制可能導致模型學習出反效果的行為。這項研究旨在識別影響 CoT 出現的基本因素,並設計最佳的訓練策略,以穩定和改善長鏈推理。

之前,研究人員已經採用監督微調 (SFT) 和強化學習來增強 LLMs 的 CoT 推理。SFT 通常用於用結構化推理範例初始化模型,而 RL 則用於微調和擴展推理能力。然而,傳統的 RL 方法在增加 CoT 長度時缺乏穩定性,經常導致推理質量不一致。可驗證的獎勵信號,例如真實準確性,對於防止模型進行獎勵駭客行為至關重要,這種行為是指模型學會優化獎勵而不是真正提升推理表現。儘管有這些努力,目前的訓練方法缺乏系統性的方法來有效擴展和穩定長 CoT。

來自卡內基梅隆大學 (Carnegie Mellon University) 和 IN.AI 的研究人員提出了一個綜合框架,以分析和優化 LLMs 中的長 CoT 推理。他們的研究重點在於確定長鏈推理的基本機制,並實驗各種訓練方法以評估其影響。團隊系統性地測試了 SFT 和 RL 技術,強調了結構化獎勵設計的重要性。他們開發了一種新穎的餘弦長度縮放獎勵,並加入重複懲罰,以鼓勵模型改進推理策略,例如分支和回溯,從而導致更有效的問題解決過程。此外,研究人員探索了將網路提取的解決方案作為可驗證的獎勵信號,以增強學習過程,特別是在 STEM 問題解決等分佈外 (OOD) 任務中。

這項訓練方法涉及對不同基礎模型的廣泛實驗,包括 Llama-3.1-8B 和 Qwen2.5-7B-Math,分別代表通用模型和數學專用模型。研究人員使用了來自 MATH 的 7,500 個訓練樣本提示數據集,以確保獲得可驗證的真實解決方案。最初的 SFT 訓練為長 CoT 的發展奠定了基礎,隨後進行了 RL 優化。團隊使用基於規則的驗證器,將生成的回應與正確答案進行比較,以確保學習過程的穩定性。他們引入了一種重複懲罰機制,以進一步完善獎勵設計,抑制模型產生冗餘推理路徑,同時激勵有效的問題解決。團隊還分析了從網路語料庫提取的數據,評估了噪音但多樣的監督信號在完善 CoT 長度縮放中的潛力。

研究結果揭示了長 CoT 推理的幾個關鍵見解。使用長 CoT SFT 訓練的模型在準確性上始終優於使用短 CoT SFT 初始化的模型。在 MATH-500 基準測試中,長 CoT SFT 模型的準確性顯著提高,超過 70%,而短 CoT SFT 模型則停滯在 55% 以下。RL 微調進一步增強了長 CoT 模型,提供了額外 3% 的絕對準確性增益。引入的餘弦長度縮放獎勵在穩定推理軌跡方面證明了其有效性,防止了過度或不結構化的 CoT 增長。此外,納入過濾的網路提取解決方案的模型在 OOD 基準測試中顯示出改進的泛化能力,例如 AIME 2024 和 TheoremQA,準確性增益達到 15-50%。研究還確認了核心推理技能,如錯誤驗證和修正,固有地存在於基礎模型中,但有效的 RL 訓練對於有效強化這些能力是必要的。

這項研究顯著推進了對 LLMs 中長 CoT 推理的理解和優化。研究人員成功識別了增強結構化推理的關鍵訓練因素,強調了監督微調、可驗證的獎勵信號和精心設計的強化學習技術的重要性。研究結果突顯了進一步研究的潛力,以完善 RL 方法,優化獎勵設計機制,並利用多樣的數據來源來增強模型的推理能力。這項研究的貢獻為未來開發具有強大、可解釋和可擴展推理能力的 AI 模型提供了寶貴的見解。

查看論文。所有對這項研究的讚譽都歸功於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,並加入我們的 Telegram 頻道和 LinkedIn 群組。也別忘了加入我們的 75k+ ML SubReddit。

🚨 推薦的開源 AI 平台:‘IntellAgent 是一個開源的多代理框架,用於評估複雜的對話 AI 系統’ (推廣)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 這篇AI論文探討長鏈思考推理通過強化學習和監督微調增強大型語言模型
Previous Post

如何使用 DeepSeek API:逐步指南

Next Post

上海人工智慧實驗室發布 OREAL-7B 和 OREAL-32B:透過基於結果獎勵的強化學習推進數學推理

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
上海人工智慧實驗室發布 OREAL-7B 和 OREAL-32B:透過基於結果獎勵的強化學習推進數學推理

上海人工智慧實驗室發布 OREAL-7B 和 OREAL-32B:透過基於結果獎勵的強化學習推進數學推理

持續教育在數據和科技中的重要性

持續教育在數據和科技中的重要性

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。