好奇心驅動的強化學習來自人類反饋 CD-RLHF：一個減輕語言模型多樣性對齊權衡的 AI 框架

大型語言模型 (LLMs) 在許多應用中越來越依賴人類反饋的強化學習 (RLHF) 來進行微調，這些應用包括程式碼生成、數學推理和對話輔助。然而，使用 RLHF 時出現了一個重大挑戰，那就是輸出多樣性降低。研究發現，RLHF 訓練的模型在對齊質量和輸出多樣性之間存在一個關鍵的權衡。當這些模型與期望目標高度對齊時，它們的輸出變化有限。這一限制對於創意開放式任務（如故事生成、數據合成和紅隊測試）來說，都是一個問題，因為多樣的輸出對於有效的表現至關重要。

目前對 LLM 對齊的研究主要集中在通過 RLHF 增強指令遵循、安全性和可靠性，但這些改進往往以輸出多樣性為代價。為了解決這個挑戰，各種方法相繼被提出，包括使用 f-divergence 與 DPO/PPO 算法，試圖在多樣性和對齊之間找到平衡。其他方法則將評估指標如 SelfBLEU 和 Sentence-BERT 整合進 RL 微調中，以提高多樣性，特別是在紅隊測試任務中。此外，一些研究人員還探索了以好奇心驅動的強化學習方法，這些方法包括基於計數的方法和基於預測誤差的技術。儘管這些努力存在，但對齊質量和輸出多樣性之間的根本權衡仍然是一個重大挑戰。

來自百度 (Baidu) 的研究人員提出了一個新框架，稱為以好奇心驅動的人類反饋強化學習 (CD-RLHF)，旨在解決語言模型中的多樣性與對齊之間的權衡。這種方法在 RLHF 訓練階段中將好奇心作為內在獎勵機制，與獎勵模型的傳統外在獎勵一起運作。CD-RLHF 使用前向動態來計算狀態表示的預測誤差，這有助於估計好奇心水平。這種方法的一個關鍵特徵是，經常訪問的狀態逐漸對模型變得不那麼有趣。這種雙重獎勵系統旨在保持高對齊質量，同時通過在每個決策點上提供多樣的標記選擇來促進多樣的輸出。

CD-RLHF 的實施和評估涵蓋了多個組件和數據集。該架構在兩個主要數據集上進行測試：TL;DR 用於文本摘要，包含 93,000 個人類標註的偏好對，和 UltraFeedback 用於指令遵循，擁有 61,100 個訓練對。該框架使用各種基礎模型進行實施，包括 Gemma-2B、Gemma-7B、Llama-3.2-1B 和 Llama-3.2-3B，所有模型均在 DeepSpeed-Chat 框架內訓練。訓練數據在 SFT、RM 和 PPO 階段的分配比例為 20/40/40。為了比較，還實施了基準方法，包括普通的 RLHF 和 Sent-Rewards，這些方法在訓練過程中使用 SelfBLEU 和 Sentence-BERT 分數作為額外獎勵。

實驗結果顯示 CD-RLHF 在多個評估指標和模型上表現優越。在 TL;DR 摘要任務中，CD-RLHF 在輸出多樣性上取得了顯著改善，Gemma-2B 和 Gemma-7B 的增幅分別為 16.66% 和 6.22%，相比於 RLHF 基準。在 UltraFeedback 指令遵循任務中，該方法顯示出更令人印象深刻的結果，多樣性改善範圍從 7.35% 到 14.29% 不等，同時保持強大的對齊質量。通過 GPT-4 評估的外部驗證顯示，CD-RLHF 在 TL;DR 上的勝率高達 58%，在 UltraFeedback 上的平均勝率為 62%。

總結來說，研究人員提出的 CD-RLHF 代表了在語言模型訓練中解決多樣性與對齊之間權衡的重要進展。該框架結合了以好奇心驅動的探索和傳統的外在獎勵，以提高輸出多樣性，同時保持對齊質量，這一點在 TL;DR 摘要和 UltraFeedback 指令遵循任務的廣泛測試中得到了證明。儘管取得了這些成就，但仍然存在一些挑戰，包括需要平衡不同獎勵尺度和 SFT 與 RLHF 訓練模型之間持續存在的輸出多樣性差距。雖然 CD-RLHF 減輕了多樣性與對齊之間的權衡，但仍需進一步研究以完全彌補這一差距，並在這兩個指標上實現最佳性能。

查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 70,000 多名機器學習 SubReddit。

🚨 介紹 IntellAgent：一個開源的多代理框架，用於評估複雜的對話 AI 系統 (推廣)

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！