將大型語言模型 (LLMs) 與人類偏好對齊是人工智慧研究中的一項重要任務。然而,目前的強化學習 (RL) 方法面臨著一些挑戰。近端策略優化 (PPO) 和類似技術通常需要大量的在線取樣,這可能導致高計算成本和不穩定性。離線強化學習方法,如直接偏好優化 (DPO),雖然避免了這些問題,但在需要多步推理的任務中,如解決數學問題或生成複雜代碼時,仍然面臨困難。這些方法經常將生成過程視為單步問題,忽略了許多推理任務中固有的長期依賴性。此外,稀疏獎勵函數僅在推理序列結束時提供反饋,使得中間步驟的指導變得困難。
來自字節跳動 (ByteDance) 和加州大學洛杉磯分校 (UCLA) 的研究人員提出了直接 Q 函數優化 (DQO) 來解決這些挑戰。DQO 將回應生成過程框架設置為馬爾可夫決策過程 (MDP),並利用軟演員-評論家 (SAC) 框架。通過直接通過語言模型參數化 Q 函數,DQO 將 LLM 對齊問題轉變為一個結構化的逐步學習過程。與基於賭徒的方法不同,DQO 包含過程獎勵——中間反饋信號——以更有效地支持多步推理。
DQO 的一個關鍵特徵是它能夠識別和優化即使在部分正確的回應中也能正確推理的步驟。例如,在數學問題解決中,DQO 對準確的步驟賦予更高的價值,並對錯誤進行懲罰,從而使推理能夠逐步改進。這使得 DQO 特別適合需要詳細且長期決策的任務。
技術實施和實際優勢
DQO 的方法集中在使用語言模型參數化 Q 函數,從而整合策略和價值函數。該模型根據軟貝爾曼方程更新其 Q 函數和價值函數。KL 正則化確保了穩定的學習,並有助於防止對特定樣本的過擬合。
為了處理時間差錯誤中的高偏差等挑戰,DQO 採用了 λ-return 機制,這種機制平衡了短期和長期獎勵,以實現更穩定的訓練。重要性取樣進一步增強了 DQO 的離線學習能力,通過減少訓練數據與模型策略之間的分佈變化。
DQO 提供了幾個實際優勢。它消除了在線取樣的需求,降低了計算成本。此外,它可以從不平衡和負樣本中學習,增強了其在各種場景中的穩健性。過程獎勵的使用有助於改善推理能力,同時提高與任務要求的對齊。
結果和見解
在數學推理數據集 GSM8K 和 MATH 上對 DQO 進行的實驗評估顯示了其有效性。在 GSM8K 數據集上,DQO 將表現從基線的 59.06% 提高到 87.26%(貪婪生成),從 53.30% 提高到 84.69%(基於取樣的生成)。這些結果超過了其他基線方法,包括 DPO 和 DRO。同樣,在 MATH 數據集上,DQO 也超越了基線,實現了取樣提高 1.18% 和貪婪生成提高 1.40% 的成績。
通過過程獎勵進一步增強 DQO 的性能,這表明它有潛力納入額外的監督信號。這些結果強調了 DQO 有效處理多步推理任務的能力,並將 LLM 與複雜目標對齊。
結論
直接 Q 函數優化 (DQO) 為 LLM 對齊的強化學習提供了一種深思熟慮的方法。通過將回應生成框架設置為 MDP 並利用 SAC 框架,DQO 解決了現有方法的限制。它能夠整合過程獎勵、處理不平衡數據,並通過 λ-return 和重要性取樣穩定訓練,使其成為涉及多步推理任務的實用解決方案。
未來的研究可以探索將 DQO 應用於其他領域,如代碼生成和對話系統,這些領域中長期決策至關重要。隨著人工智慧系統不斷發展以應對越來越複雜的挑戰,像 DQO 這樣的方法將在增強語言模型的對齊和性能方面發揮重要作用。
查看論文。這項研究的所有榮譽歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 60k+ ML SubReddit。
🚨 熱門消息:LG AI 研究發布 EXAONE 3.5:三個開源雙語前沿 AI 模型提供無與倫比的指令跟隨和長上下文理解,為生成 AI 卓越的全球領導地位……。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!