星期一, 16 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

清華大學的這篇AI論文提出T1以通過鼓勵探索來擴展強化學習並理解推理擴展

2025-02-02
in AI 綜合新聞
0 0
0
清華大學的這篇AI論文提出T1以通過鼓勵探索來擴展強化學習並理解推理擴展
Share on FacebookShare on Twitter
Your Ad



大型語言模型(LLMs)是專門為數學、程式設計和一般自主代理開發的,並且在測試時需要改善推理能力。各種方法包括在回應某些提示時產生推理步驟,或使用抽樣和訓練模型來生成相同的步驟。強化學習更有可能促進自我探索和從反饋中學習的能力;然而,它們對於複雜推理的影響仍然有限。在測試時擴展LLMs仍然是一個問題,因為增加計算努力不一定會轉化為更好的模型。深入推理和更長的回應可能會改善表現,但有效達成這一點一直具有挑戰性。

目前改善語言模型推理的方法主要集中在模仿學習上,模型複製使用提示生成的推理步驟或拒絕抽樣。基於推理相關數據的預訓練和使用強化學習的微調有助於提高理解能力,但對於複雜推理的擴展效果不佳。後訓練技術如生成問題-答案對和添加驗證者可以提高準確性,但在很大程度上依賴外部監督。通過更多數據和更大模型擴展語言模型可以提高表現,但基於強化學習的擴展和測試時推理仍然無效。重複抽樣增加計算成本而不提高推理能力,使得當前技術在深入推理和長篇回應方面效率低下。

為了解決這些問題,清華大學的研究人員和智譜人工智慧(Zhipu AI)提出了T1方法。它通過擴大探索範圍和改善推理擴展來增強強化學習。T1首先基於鏈式思考數據進行語言模型訓練,使用試錯法和自我驗證。這在訓練階段通常被現有方法否定。因此,模型找到了正確的答案並理解了達到這些答案的步驟。與之前專注於獲得正確解決方案的方法不同,T1通過對每個提示產生多個回應並在強化學習之前分析錯誤來鼓勵多樣的推理路徑。這個框架在兩個方面增強了強化學習訓練:首先,通過過度抽樣增加回應的多樣性;其次,通過基於熵的輔助損失調節訓練穩定性。T1不再維持固定的參考模型,而是使用指數移動平均動態更新參考模型,這樣訓練不會變得僵化。T1對冗餘、過長或低質量的答案施加負獎勵,保持模型朝著有意義的推理方向發展。

研究人員使用開放模型如GLM-4-9B和Qwen2.5-14B/32B構建了T1,專注於通過強化學習進行數學推理。他們從MATH-train和NuminaMath中提取訓練數據,策劃了30,000個實例,通過提取答案和過濾噪音數據來完成。監督微調(SFT)使用了餘弦衰減調度,而強化學習訓練則涉及基於正確性的獎勵的策略梯度下降。在評估中,T1在數學基準測試中超越了其基線模型,Qwen2.5-32B的表現比SFT版本提高了10-20%。增加抽樣回應的數量(K)增強了探索和泛化,特別是在GPQA上。抽樣溫度1.2穩定了訓練,而過高或過低的值則導致性能問題。在強化學習訓練期間施加了懲罰,以控制回應長度並提高一致性。結果顯示,隨著推理擴展,性能顯著提高,更多的計算資源導致更好的結果。

總結來說,提出的T1方法通過擴展強化學習來增強大型語言模型,並改善探索和穩定性。懲罰和過度抽樣可以平滑瓶頸樣本的影響。它顯示出強大的性能和有希望的擴展行為。測量推理擴展的方法顯示,進一步的強化學習訓練提高了推理準確性和擴展趨勢。T1在挑戰性基準測試中超越了最先進的模型,克服了當前推理方法的弱點。這項工作可以成為進一步研究的起點,提供一個框架來提升推理能力和擴展大型語言模型。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 清華大學的這篇AI論文提出T1以通過鼓勵探索來擴展強化學習並理解推理擴展
Previous Post

稀疏自編碼器:從疊加到可解釋特徵 | 謝書揚 | 2025年2月

Next Post

建立基於 AI 代理的系統與 LangGraph:添加持久性和串流(逐步指南)

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
建立基於 AI 代理的系統與 LangGraph:添加持久性和串流(逐步指南)

建立基於 AI 代理的系統與 LangGraph:添加持久性和串流(逐步指南)

Proprio CEO 描繪外科機器人未來,外科醫生短缺迫在眉睫

Proprio CEO 描繪外科機器人未來,外科醫生短缺迫在眉睫

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。