星期三, 28 5 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

好奇心驅動的強化學習來自人類反饋 CD-RLHF:一個減輕語言模型多樣性對齊權衡的 AI 框架

2025-02-01
in AI 綜合新聞
0 0
0
好奇心驅動的強化學習來自人類反饋 CD-RLHF:一個減輕語言模型多樣性對齊權衡的 AI 框架
Share on FacebookShare on Twitter
Your Ad


大型語言模型 (LLMs) 在許多應用中越來越依賴人類反饋的強化學習 (RLHF) 來進行微調,這些應用包括程式碼生成、數學推理和對話輔助。然而,使用 RLHF 時出現了一個重大挑戰,那就是輸出多樣性降低。研究發現,RLHF 訓練的模型在對齊質量和輸出多樣性之間存在一個關鍵的權衡。當這些模型與期望目標高度對齊時,它們的輸出變化有限。這一限制對於創意開放式任務(如故事生成、數據合成和紅隊測試)來說,都是一個問題,因為多樣的輸出對於有效的表現至關重要。

目前對 LLM 對齊的研究主要集中在通過 RLHF 增強指令遵循、安全性和可靠性,但這些改進往往以輸出多樣性為代價。為了解決這個挑戰,各種方法相繼被提出,包括使用 f-divergence 與 DPO/PPO 算法,試圖在多樣性和對齊之間找到平衡。其他方法則將評估指標如 SelfBLEU 和 Sentence-BERT 整合進 RL 微調中,以提高多樣性,特別是在紅隊測試任務中。此外,一些研究人員還探索了以好奇心驅動的強化學習方法,這些方法包括基於計數的方法和基於預測誤差的技術。儘管這些努力存在,但對齊質量和輸出多樣性之間的根本權衡仍然是一個重大挑戰。

來自百度 (Baidu) 的研究人員提出了一個新框架,稱為以好奇心驅動的人類反饋強化學習 (CD-RLHF),旨在解決語言模型中的多樣性與對齊之間的權衡。這種方法在 RLHF 訓練階段中將好奇心作為內在獎勵機制,與獎勵模型的傳統外在獎勵一起運作。CD-RLHF 使用前向動態來計算狀態表示的預測誤差,這有助於估計好奇心水平。這種方法的一個關鍵特徵是,經常訪問的狀態逐漸對模型變得不那麼有趣。這種雙重獎勵系統旨在保持高對齊質量,同時通過在每個決策點上提供多樣的標記選擇來促進多樣的輸出。

CD-RLHF 的實施和評估涵蓋了多個組件和數據集。該架構在兩個主要數據集上進行測試:TL;DR 用於文本摘要,包含 93,000 個人類標註的偏好對,和 UltraFeedback 用於指令遵循,擁有 61,100 個訓練對。該框架使用各種基礎模型進行實施,包括 Gemma-2B、Gemma-7B、Llama-3.2-1B 和 Llama-3.2-3B,所有模型均在 DeepSpeed-Chat 框架內訓練。訓練數據在 SFT、RM 和 PPO 階段的分配比例為 20/40/40。為了比較,還實施了基準方法,包括普通的 RLHF 和 Sent-Rewards,這些方法在訓練過程中使用 SelfBLEU 和 Sentence-BERT 分數作為額外獎勵。

實驗結果顯示 CD-RLHF 在多個評估指標和模型上表現優越。在 TL;DR 摘要任務中,CD-RLHF 在輸出多樣性上取得了顯著改善,Gemma-2B 和 Gemma-7B 的增幅分別為 16.66% 和 6.22%,相比於 RLHF 基準。在 UltraFeedback 指令遵循任務中,該方法顯示出更令人印象深刻的結果,多樣性改善範圍從 7.35% 到 14.29% 不等,同時保持強大的對齊質量。通過 GPT-4 評估的外部驗證顯示,CD-RLHF 在 TL;DR 上的勝率高達 58%,在 UltraFeedback 上的平均勝率為 62%。

總結來說,研究人員提出的 CD-RLHF 代表了在語言模型訓練中解決多樣性與對齊之間權衡的重要進展。該框架結合了以好奇心驅動的探索和傳統的外在獎勵,以提高輸出多樣性,同時保持對齊質量,這一點在 TL;DR 摘要和 UltraFeedback 指令遵循任務的廣泛測試中得到了證明。儘管取得了這些成就,但仍然存在一些挑戰,包括需要平衡不同獎勵尺度和 SFT 與 RLHF 訓練模型之間持續存在的輸出多樣性差距。雖然 CD-RLHF 減輕了多樣性與對齊之間的權衡,但仍需進一步研究以完全彌補這一差距,並在這兩個指標上實現最佳性能。

查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 70,000 多名機器學習 SubReddit。

🚨 介紹 IntellAgent:一個開源的多代理框架,用於評估複雜的對話 AI 系統 (推廣)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: CDRLHF一個減輕語言模型多樣性對齊權衡的好奇心驅動的強化學習來自人類反饋框架
Previous Post

DeepSeek 可能對能源來說並不是好消息

Next Post

什麼是檢索增強生成(RAG)

Related Posts

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
什麼是檢索增強生成(RAG)

什麼是檢索增強生成(RAG)

逐步推理數學問題的扭曲序列蒙地卡羅方法

逐步推理數學問題的扭曲序列蒙地卡羅方法

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。