大型語言模型 (LLMs) 在許多應用中越來越依賴人類反饋的強化學習 (RLHF) 來進行微調,這些應用包括程式碼生成、數學推理和對話輔助。然而,使用 RLHF 時出現了一個重大挑戰,那就是輸出多樣性降低。研究發現,RLHF 訓練的模型在對齊質量和輸出多樣性之間存在一個關鍵的權衡。當這些模型與期望目標高度對齊時,它們的輸出變化有限。這一限制對於創意開放式任務(如故事生成、數據合成和紅隊測試)來說,都是一個問題,因為多樣的輸出對於有效的表現至關重要。
目前對 LLM 對齊的研究主要集中在通過 RLHF 增強指令遵循、安全性和可靠性,但這些改進往往以輸出多樣性為代價。為了解決這個挑戰,各種方法相繼被提出,包括使用 f-divergence 與 DPO/PPO 算法,試圖在多樣性和對齊之間找到平衡。其他方法則將評估指標如 SelfBLEU 和 Sentence-BERT 整合進 RL 微調中,以提高多樣性,特別是在紅隊測試任務中。此外,一些研究人員還探索了以好奇心驅動的強化學習方法,這些方法包括基於計數的方法和基於預測誤差的技術。儘管這些努力存在,但對齊質量和輸出多樣性之間的根本權衡仍然是一個重大挑戰。
來自百度 (Baidu) 的研究人員提出了一個新框架,稱為以好奇心驅動的人類反饋強化學習 (CD-RLHF),旨在解決語言模型中的多樣性與對齊之間的權衡。這種方法在 RLHF 訓練階段中將好奇心作為內在獎勵機制,與獎勵模型的傳統外在獎勵一起運作。CD-RLHF 使用前向動態來計算狀態表示的預測誤差,這有助於估計好奇心水平。這種方法的一個關鍵特徵是,經常訪問的狀態逐漸對模型變得不那麼有趣。這種雙重獎勵系統旨在保持高對齊質量,同時通過在每個決策點上提供多樣的標記選擇來促進多樣的輸出。
CD-RLHF 的實施和評估涵蓋了多個組件和數據集。該架構在兩個主要數據集上進行測試:TL;DR 用於文本摘要,包含 93,000 個人類標註的偏好對,和 UltraFeedback 用於指令遵循,擁有 61,100 個訓練對。該框架使用各種基礎模型進行實施,包括 Gemma-2B、Gemma-7B、Llama-3.2-1B 和 Llama-3.2-3B,所有模型均在 DeepSpeed-Chat 框架內訓練。訓練數據在 SFT、RM 和 PPO 階段的分配比例為 20/40/40。為了比較,還實施了基準方法,包括普通的 RLHF 和 Sent-Rewards,這些方法在訓練過程中使用 SelfBLEU 和 Sentence-BERT 分數作為額外獎勵。
實驗結果顯示 CD-RLHF 在多個評估指標和模型上表現優越。在 TL;DR 摘要任務中,CD-RLHF 在輸出多樣性上取得了顯著改善,Gemma-2B 和 Gemma-7B 的增幅分別為 16.66% 和 6.22%,相比於 RLHF 基準。在 UltraFeedback 指令遵循任務中,該方法顯示出更令人印象深刻的結果,多樣性改善範圍從 7.35% 到 14.29% 不等,同時保持強大的對齊質量。通過 GPT-4 評估的外部驗證顯示,CD-RLHF 在 TL;DR 上的勝率高達 58%,在 UltraFeedback 上的平均勝率為 62%。
總結來說,研究人員提出的 CD-RLHF 代表了在語言模型訓練中解決多樣性與對齊之間權衡的重要進展。該框架結合了以好奇心驅動的探索和傳統的外在獎勵,以提高輸出多樣性,同時保持對齊質量,這一點在 TL;DR 摘要和 UltraFeedback 指令遵循任務的廣泛測試中得到了證明。儘管取得了這些成就,但仍然存在一些挑戰,包括需要平衡不同獎勵尺度和 SFT 與 RLHF 訓練模型之間持續存在的輸出多樣性差距。雖然 CD-RLHF 減輕了多樣性與對齊之間的權衡,但仍需進一步研究以完全彌補這一差距,並在這兩個指標上實現最佳性能。
查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 70,000 多名機器學習 SubReddit。
🚨 介紹 IntellAgent:一個開源的多代理框架,用於評估複雜的對話 AI 系統 (推廣)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!