星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

革命性的大型語言模型對齊:深入探討直接Q函數優化

2024-12-31
in 機器學習與應用
0 0
0
革命性的大型語言模型對齊:深入探討直接Q函數優化
Share on FacebookShare on Twitter
Your Ad


將大型語言模型 (LLMs) 與人類偏好對齊是人工智慧研究中的一項重要任務。然而,目前的強化學習 (RL) 方法面臨著一些挑戰。近端策略優化 (PPO) 和類似技術通常需要大量的在線取樣,這可能導致高計算成本和不穩定性。離線強化學習方法,如直接偏好優化 (DPO),雖然避免了這些問題,但在需要多步推理的任務中,如解決數學問題或生成複雜代碼時,仍然面臨困難。這些方法經常將生成過程視為單步問題,忽略了許多推理任務中固有的長期依賴性。此外,稀疏獎勵函數僅在推理序列結束時提供反饋,使得中間步驟的指導變得困難。

來自字節跳動 (ByteDance) 和加州大學洛杉磯分校 (UCLA) 的研究人員提出了直接 Q 函數優化 (DQO) 來解決這些挑戰。DQO 將回應生成過程框架設置為馬爾可夫決策過程 (MDP),並利用軟演員-評論家 (SAC) 框架。通過直接通過語言模型參數化 Q 函數,DQO 將 LLM 對齊問題轉變為一個結構化的逐步學習過程。與基於賭徒的方法不同,DQO 包含過程獎勵——中間反饋信號——以更有效地支持多步推理。

DQO 的一個關鍵特徵是它能夠識別和優化即使在部分正確的回應中也能正確推理的步驟。例如,在數學問題解決中,DQO 對準確的步驟賦予更高的價值,並對錯誤進行懲罰,從而使推理能夠逐步改進。這使得 DQO 特別適合需要詳細且長期決策的任務。

技術實施和實際優勢

DQO 的方法集中在使用語言模型參數化 Q 函數,從而整合策略和價值函數。該模型根據軟貝爾曼方程更新其 Q 函數和價值函數。KL 正則化確保了穩定的學習,並有助於防止對特定樣本的過擬合。

為了處理時間差錯誤中的高偏差等挑戰,DQO 採用了 λ-return 機制,這種機制平衡了短期和長期獎勵,以實現更穩定的訓練。重要性取樣進一步增強了 DQO 的離線學習能力,通過減少訓練數據與模型策略之間的分佈變化。

DQO 提供了幾個實際優勢。它消除了在線取樣的需求,降低了計算成本。此外,它可以從不平衡和負樣本中學習,增強了其在各種場景中的穩健性。過程獎勵的使用有助於改善推理能力,同時提高與任務要求的對齊。

結果和見解

在數學推理數據集 GSM8K 和 MATH 上對 DQO 進行的實驗評估顯示了其有效性。在 GSM8K 數據集上,DQO 將表現從基線的 59.06% 提高到 87.26%(貪婪生成),從 53.30% 提高到 84.69%(基於取樣的生成)。這些結果超過了其他基線方法,包括 DPO 和 DRO。同樣,在 MATH 數據集上,DQO 也超越了基線,實現了取樣提高 1.18% 和貪婪生成提高 1.40% 的成績。

通過過程獎勵進一步增強 DQO 的性能,這表明它有潛力納入額外的監督信號。這些結果強調了 DQO 有效處理多步推理任務的能力,並將 LLM 與複雜目標對齊。

結論

直接 Q 函數優化 (DQO) 為 LLM 對齊的強化學習提供了一種深思熟慮的方法。通過將回應生成框架設置為 MDP 並利用 SAC 框架,DQO 解決了現有方法的限制。它能夠整合過程獎勵、處理不平衡數據,並通過 λ-return 和重要性取樣穩定訓練,使其成為涉及多步推理任務的實用解決方案。

未來的研究可以探索將 DQO 應用於其他領域,如代碼生成和對話系統,這些領域中長期決策至關重要。隨著人工智慧系統不斷發展以應對越來越複雜的挑戰,像 DQO 這樣的方法將在增強語言模型的對齊和性能方面發揮重要作用。

查看論文。這項研究的所有榮譽歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 60k+ ML SubReddit。

🚨 熱門消息:LG AI 研究發布 EXAONE 3.5:三個開源雙語前沿 AI 模型提供無與倫比的指令跟隨和長上下文理解,為生成 AI 卓越的全球領導地位……。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 革命性的大型語言模型對齊深入探討直接Q函數優化
Previous Post

Hugging Face 剛剛發布了 SmolAgents:一個能夠用幾行代碼運行強大 AI 代理的小型庫

Next Post

人形機器人會使工業機器手臂過時嗎?

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
人形機器人會使工業機器手臂過時嗎?

人形機器人會使工業機器手臂過時嗎?

人工智慧熱潮指數:機器人寵物、模擬人類與蘋果的AI文本摘要

人工智慧熱潮指數:機器人寵物、模擬人類與蘋果的AI文本摘要

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。