星期六, 14 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

優化大型語言模型的測試時間計算:一種具有累積後悔最小化的元強化學習方法

2025-03-15
in AI 綜合新聞
0 0
0
優化大型語言模型的測試時間計算:一種具有累積後悔最小化的元強化學習方法
Share on FacebookShare on Twitter
Your Ad


提升大型語言模型 (LLMs) 的推理能力,通過優化測試時的計算,是一個重要的研究挑戰。目前的方法主要依賴於使用搜索痕跡或強化學習 (RL) 進行微調,並使用二元結果獎勵。然而,這些方法可能無法充分有效地利用測試時的計算。最近的研究表明,增加測試時的計算可以通過生成更長的解決方案痕跡和納入結構化步驟(如反思、計劃和算法搜索)來改善推理。關鍵挑戰在於 LLMs 是否能根據任務的複雜性有效分配計算資源,並在給定更大的測試時計算預算時發現更困難問題的解決方案。解決這些問題對於提高 LLM 推理的效率和泛化能力至關重要。

最近在擴展測試時計算方面的進展,探索了為基於選擇的方法(如最佳 N 或束搜索)訓練單獨的驗證器,這有時比增加數據或模型大小更有效。然而,在不熟悉的搜索痕跡上進行微調可能導致記憶而不是真正的推理改進。基於 RL 的方法在生成思考鏈推理方面顯示出潛力,使模型能夠自我反省、計劃和完善其輸出。然而,增加推理長度並不總是與更高的準確性相關,因為模型可能生成不必要的長序列而沒有實質性進展。為了解決這個問題,最近的努力納入了結構化獎勵機制和長度懲罰,以鼓勵高效推理,確保模型專注於生成信息豐富、簡潔的解決方案,而不是過度計算。

來自卡內基梅隆大學 (Carnegie Mellon University) 和 Hugging Face 的研究人員正在研究如何優化 LLMs 的測試時計算,通過改進模型在推理過程中分配計算資源的方式。他們不僅依賴於結果獎勵的強化學習,而是引入了一種微調方法,平衡探索和利用,確保穩定地朝著正確答案邁進。他們的方法納入了一個密集的獎勵獎金來量化進展,提高了效率。在數學基準測試中的評估顯示,這種方法顯著超越了現有的方法,提升了準確性和標記效率。他們的研究結果還表明,優化進展可以最小化計算後悔,同時改善解決方案的發現,而不犧牲準確性。

優化測試時計算的問題被框架為一個元強化學習 (meta RL) 挑戰。目標是在給定的測試時標記預算內最大化 LLM 的性能,通過平衡探索和利用來實現。提出的元強化微調 (Meta Reinforcement Fine-Tuning, MRT) 方法不是僅僅優化結果,而是通過在連續的回合中獎勵進展來最小化累積後悔。這種不依賴預算的策略使 LLMs 能夠穩步進展,而不受訓練限制的影響。通過納入基於增量改進的獎勵獎金,MRT 確保了測試時計算的高效使用,增強了適應性和在部署限制內的反應準確性。

這項研究評估了 MRT 在優化測試時計算中的有效性,重點是實現高準確性同時保持計算效率。研究展示了關鍵發現,將 MRT 的效率與先前的方法進行比較,並對標記預算和進展進行了消融實驗。MRT 始終超越基準模型和結果獎勵的強化學習 (GRPO),在其大小類別中達到了最先進的結果。它還改善了分佈外的穩健性,並在較弱的模型中提供了更大的性能增益。此外,MRT 顯著提高了標記效率,所需的標記數量較少即可達到相當的準確性。額外的實驗突顯了其在回溯搜索和線性化評估中的有效性。

總之,這項研究將優化測試時計算重新框架為一個元強化學習 (RL) 問題,並引入累積後悔作為關鍵指標。最先進的結果獎勵 RL 模型未能最小化後悔,通常在標記預算內對新查詢感到困難。這一限制源於僅用結果獎勵進行訓練,缺乏指導逐步進展的細緻性。為了解決這個問題,提出了 MRT,納入一個密集的獎勵獎金,鼓勵增量改進。MRT 提高了測試時計算的效率,在數學推理中實現了 2-3 倍的性能提升和 1.5 倍的標記效率,儘管仍有幾個未解決的問題。

查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時在 Twitter 上關注我們,並別忘了加入我們的 80k+ ML SubReddit。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 優化大型語言模型的測試時間計算一種具有累積後悔最小化的元強化學習方法
Previous Post

九個生鏽的Pico PIO瓦特(第二部分)

Next Post

證據顯示40Hz伽瑪刺激促進大腦健康的研究不斷擴展 | MIT新聞

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
證據顯示40Hz伽瑪刺激促進大腦健康的研究不斷擴展 | MIT新聞

證據顯示40Hz伽瑪刺激促進大腦健康的研究不斷擴展 | MIT新聞

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。