星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

隱性獎勵強化過程 (PRIME):一個可擴展的機器學習框架以增強推理能力

2025-02-08
in 機器學習與應用
0 0
0
隱性獎勵強化過程 (PRIME):一個可擴展的機器學習框架以增強推理能力
Share on FacebookShare on Twitter
Your Ad


強化學習 (Reinforcement Learning, RL) 在大型語言模型 (Large Language Models, LLMs) 的應用上,傳統上依賴於基於結果的獎勵,這種獎勵只對最終結果提供反饋。這種獎勵稀疏的情況使得訓練需要多步推理的模型變得困難,例如數學問題解決和程式設計的模型。此外,信用分配變得模糊,因為模型對中間步驟沒有細緻的反饋。過程獎勵模型 (Process Reward Models, PRMs) 嘗試通過提供密集的逐步獎勵來解決這個問題,但它們需要昂貴的人為標註過程標籤,這使得它們在大規模強化學習中不可行。此外,靜態獎勵函數容易出現過度優化和獎勵黑客的問題,模型可能以意想不到的方式利用獎勵系統,最終影響模型的泛化性能。這些限制降低了強化學習在大型語言模型中的效率、可擴展性和應用性,因此需要一種新的解決方案,能夠有效結合密集獎勵而不需要高計算成本或人為標註。

現有的針對大型語言模型的強化學習方法大多使用基於結果的獎勵模型 (Outcome Reward Models, ORMs),這些模型僅對最終結果提供分數。這導致樣本效率低,因為模型必須生成和測試整個序列才能獲得反饋。一些方法使用價值模型來估計過去行動的未來獎勵,以對抗這種情況。然而,這些模型的變異性高,無法妥善處理獎勵稀疏的問題。PRMs 提供了更細緻的反饋,但需要昂貴的手動標註中間步驟,並且由於靜態獎勵函數的原因,容易出現獎勵黑客的情況。此外,大多數現有方法需要額外的訓練階段來訓練獎勵模型,增加了計算成本,使其在可擴展的在線強化學習中變得不可行。

來自清華大學 (Tsinghua University)、上海人工智慧實驗室 (Shanghai AI Lab)、伊利諾伊大學香檳分校 (University of Illinois Urbana-Champaign)、北京大學 (Peking University)、上海交通大學 (Shanghai Jiaotong University) 和香港中文大學 (CUHK) 的一組研究人員提出了一種強化學習框架,該框架通過有效利用密集反饋來消除對明確逐步標註的需求。他們提出的主要貢獻是引入了一種隱式過程獎勵模型 (Implicit Process Reward Model, Implicit PRM),該模型獨立於結果標籤生成令牌級獎勵,從而消除了對人為標註逐步指導的需求。這種方法允許獎勵模型的持續在線改進,消除了過度優化的問題,同時不允許動態策略展開調整。該框架能夠在優勢估計過程中成功整合隱式過程獎勵和結果獎勵,提供計算效率並消除獎勵黑客的問題。與之前的方法不同,新的方法直接從策略模型本身初始化 PRM,從而大大減少了開發開銷。它還與多種強化學習算法兼容,包括 REINFORCE、PPO 和 GRPO,使其在訓練大型語言模型時具有普遍性和可擴展性。

這個強化學習系統提供令牌級的隱式過程獎勵,通過學習的獎勵模型和參考模型之間的對數比率公式進行計算。獎勵函數不是通過手動標註來獲得,而是從已經獲得的原始結果標籤中學習,這些標籤已經用於策略訓練。該系統還包括獎勵函數的在線學習,以避免過度優化和獎勵黑客。它使用混合優勢估計方法,通過留一法蒙特卡羅估計器結合隱式過程獎勵和結果獎勵。政策優化是通過近端政策優化 (Proximal Policy Optimization, PPO) 使用剪裁的替代損失函數來實現穩定性。該模型使用 Qwen2.5-Math-7B-Base 訓練,這是一個針對數學推理的優化模型。該系統基於 150K 的查詢,每個查詢有四個樣本,而 Qwen2.5-Math-7B-Instruct 使用了 618K 的內部標註,這顯示了訓練過程的有效性。

這個強化學習系統在多個基準測試中顯示出顯著的樣本效率和推理性能提升。與標準的基於結果的強化學習相比,它在樣本效率上提高了 2.5 倍,在數學問題解決上提高了 6.9%。該模型在數學基準測試中超越了 Qwen2.5-Math-7B-Instruct,在競賽級任務如 AIME 和 AMC 上的準確性更高。從這個過程訓練的模型在挑戰性推理任務上超越了更大的模型,包括 GPT-4o,並且在僅使用 Qwen2.5-Math-7B-Instruct 使用的 10% 訓練數據的情況下,達到了更高的 pass@1 準確性。這些結果證實了對獎勵模型的在線更新避免了過度優化,增強了訓練穩定性,並改善了信用分配,使這成為一種非常強大的強化學習方法,適用於大型語言模型。

這種強化學習方法提供了一個高效且可擴展的 LLM 訓練過程,具有密集的隱式過程獎勵。這消除了逐步明確標註的需求,並最小化了訓練成本,同時提高了樣本效率、穩定性和性能。這個過程和在線獎勵建模及令牌級反饋的結合,成功解決了強化學習中長期存在的獎勵稀疏和信用分配問題。這些改進優化了 AI 模型的推理能力,使其適合數學和程式設計的問題解決應用。這項研究對基於強化學習的 LLM 訓練做出了重要貢獻,為更高效、可擴展和高性能的 AI 訓練方法鋪平了道路。

查看論文和 GitHub 頁面。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。也別忘了加入我們的 75k+ ML SubReddit。

🚨 推薦的開源 AI 平台:‘IntellAgent 是一個開源多代理框架,用於評估複雜的對話 AI 系統’ (推廣)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: PRIME一個可擴展的機器學習框架以增強推理能力隱性獎勵強化過程
Previous Post

伽瑪障礙分佈 | 數據科學進階

Next Post

IBM AI 發布 Granite-Vision-3.1-2B:一個在各種任務上表現超卓的小型視覺語言模型

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
IBM AI 發布 Granite-Vision-3.1-2B:一個在各種任務上表現超卓的小型視覺語言模型

IBM AI 發布 Granite-Vision-3.1-2B:一個在各種任務上表現超卓的小型視覺語言模型

100 個生成式人工智慧應用案例

100 個生成式人工智慧應用案例

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。