星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

微軟與Ubiquant研究人員推出Logic-RL:一個基於規則的強化學習框架,通過在邏輯謎題上的訓練獲得類似R1的推理模式

2025-03-09
in 機器學習與應用
0 0
0
微軟與Ubiquant研究人員推出Logic-RL:一個基於規則的強化學習框架,通過在邏輯謎題上的訓練獲得類似R1的推理模式
Share on FacebookShare on Twitter
Your Ad


大型語言模型(LLMs)在後訓練階段取得了顯著的進展,例如 DeepSeek-R1、Kimi-K1.5 和 OpenAI-o1,展現出令人印象深刻的推理能力。雖然 DeepSeek-R1 提供了開源模型權重,但卻不公開訓練代碼和數據集的詳細資訊,這引發了關於如何將推理能力擴展到更小模型、最佳訓練數據結構和可靠複製方法的問題。傳統的數學數據集如 GSM8K 和 Omini-MATH 在邏輯深度上存在不一致的難度,這使得控制實驗變得複雜。因此,針對可控複雜度的數據集需求變得至關重要,以便隔離變數並研究 LLMs 中推理能力的出現。

LLMs 的推理能力通過各種技術得到了提升,其中「思考鏈」(Chain-of-Thought, CoT)推理在將複雜問題分解為可管理步驟方面發揮了關鍵作用。蒙特卡羅樹搜尋(Monte Carlo Tree Search, MCTS)最初在 AlphaGo 中取得成功,現已被調整用於指導基於模型的規劃,通過樹狀搜尋和平衡探索與利用來進行隨機取樣。此外,增強推理能力的後訓練策略包括在專門數據集上進行額外的微調或強化學習(Reinforcement Learning, RL)。像直接偏好優化(Direct Preference Optimization, DPO)、近端策略優化(Proximal Policy Optimization, PPO)、群體相對策略優化(Group Relative Policy Optimization, GRPO)和 REINFORCE++ 等方法顯示出良好的前景,形成了推進模型推理的前沿,並結合測試時的擴展方法。

來自微軟亞洲研究院(Microsoft Research Asia)、Ubiquant 和獨立研究者提出了 Logic-RL,這是一個基於規則的強化學習框架,通過在邏輯謎題上進行訓練來獲取類似 DeepSeek-R1 的推理模式。它採用了 REINFORCE++ 算法和 DeepSeek-R1 的獎勵設計。在訓練過程中,模型自然地將更多計算步驟分配給推理,從生成數百個標記擴展到數千個,這使得思考過程的深入探索和細化成為可能。使用僅 5K 生成的邏輯謎題,他們的 7B 模型顯示出跨領域的泛化能力,在 AIME 上提高了 125%,在 AMC 上提高了 38%,相對於基準模型。這表明,經過 RL 訓練的推理發展出抽象問題解決模式,而不是特定領域的匹配。

研究人員面臨著 Qwen2.5-Math-7B 在生成 Python 代碼塊時與格式要求衝突的挑戰。對 Qwen2.5-7B-Base 和 Qwen2.5-7B-Instruct 進行測試顯示,在 RL 訓練期間,兩者的訓練指標幾乎相同,包括驗證準確率、響應長度增長曲線和獎勵曲線。實施顯示出推理能力的顯著提高,輸出長度從最初的平均 500 個標記增加到約 2000 個標記,僅需 1000 步 RL 訓練。這使得更複雜的行為出現,例如反思和探索替代解決方案,這些行為顯著增強了模型處理複雜任務的能力,並與 DeepSeek-R1 報告的結果密切相關。

結果顯示,雖然 PPO 在準確性和獎勵上取得了顯著優勢,但其訓練速度比 REINFORCE++ 慢了 138%。REINFORCE++ 在穩定性、性能增益和訓練效率方面優於 GRPO,幾乎在所有指標上都超越了它。GRPO 在三種評估的 RL 算法中表現最弱。模型的超出分佈(Super OOD)泛化能力極其強大,在 AIME 數據集上整體提高了 125%,在 AMC 數據集上提高了 38%。這種同步改進表明,RL 過程同時增強了分佈內的性能,並促進了穩健、可轉移的推理策略的出現。

這項研究顯示了 Logic-RL 在通過基於規則的 RL 框架發展複雜推理技能方面的巨大潛力。然而,重要的是要承認這些發現是基於相對小規模的邏輯數據集,這可能限制了它們的適用性。這些結果在大規模現實世界數學或編碼場景中的普遍性仍然是一個開放的問題,需要進一步調查。未來的研究應專注於將這種方法擴展到更多樣化和複雜的數據集,以徹底驗證其在不同領域和問題類型中的有效性和穩健性。通過將這項工作保持為開放研究項目,研究人員旨在使更廣泛的科學社群受益。

查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時在 Twitter 上關注我們,並別忘了加入我們的 80K+ ML SubReddit。

🚨 介紹 Parlant:一個以 LLM 為首的對話式 AI 框架,旨在為開發者提供對其 AI 客戶服務代理的控制和精確度,利用行為指導和運行時監督。🔧 🎛️ 它使用易於使用的命令行介面(CLI)📟 和 Python 及 TypeScript 的本機客戶端 SDK 📦 操作。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 微軟與Ubiquant研究人員推出LogicRL一個基於規則的強化學習框架通過在邏輯謎題上的訓練獲得類似R1的推理模式
Previous Post

評估大型語言模型中的大腦對齊:對語言能力和神經表徵的洞察

Next Post

AI 奇點與摩爾定律的終結:自我學習機器的崛起

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
AI 奇點與摩爾定律的終結:自我學習機器的崛起

AI 奇點與摩爾定律的終結:自我學習機器的崛起

艾諾斯與優果開發具嗅覺的服務型機器人

艾諾斯與優果開發具嗅覺的服務型機器人

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。