革命性的大型語言模型對齊：深入探討直接Q函數優化

將大型語言模型 (LLMs) 與人類偏好對齊是人工智慧研究中的一項重要任務。然而，目前的強化學習 (RL) 方法面臨著一些挑戰。近端策略優化 (PPO) 和類似技術通常需要大量的在線取樣，這可能導致高計算成本和不穩定性。離線強化學習方法，如直接偏好優化 (DPO)，雖然避免了這些問題，但在需要多步推理的任務中，如解決數學問題或生成複雜代碼時，仍然面臨困難。這些方法經常將生成過程視為單步問題，忽略了許多推理任務中固有的長期依賴性。此外，稀疏獎勵函數僅在推理序列結束時提供反饋，使得中間步驟的指導變得困難。

來自字節跳動 (ByteDance) 和加州大學洛杉磯分校 (UCLA) 的研究人員提出了直接 Q 函數優化 (DQO) 來解決這些挑戰。DQO 將回應生成過程框架設置為馬爾可夫決策過程 (MDP)，並利用軟演員-評論家 (SAC) 框架。通過直接通過語言模型參數化 Q 函數，DQO 將 LLM 對齊問題轉變為一個結構化的逐步學習過程。與基於賭徒的方法不同，DQO 包含過程獎勵——中間反饋信號——以更有效地支持多步推理。

DQO 的一個關鍵特徵是它能夠識別和優化即使在部分正確的回應中也能正確推理的步驟。例如，在數學問題解決中，DQO 對準確的步驟賦予更高的價值，並對錯誤進行懲罰，從而使推理能夠逐步改進。這使得 DQO 特別適合需要詳細且長期決策的任務。

技術實施和實際優勢

DQO 的方法集中在使用語言模型參數化 Q 函數，從而整合策略和價值函數。該模型根據軟貝爾曼方程更新其 Q 函數和價值函數。KL 正則化確保了穩定的學習，並有助於防止對特定樣本的過擬合。

為了處理時間差錯誤中的高偏差等挑戰，DQO 採用了 λ-return 機制，這種機制平衡了短期和長期獎勵，以實現更穩定的訓練。重要性取樣進一步增強了 DQO 的離線學習能力，通過減少訓練數據與模型策略之間的分佈變化。

DQO 提供了幾個實際優勢。它消除了在線取樣的需求，降低了計算成本。此外，它可以從不平衡和負樣本中學習，增強了其在各種場景中的穩健性。過程獎勵的使用有助於改善推理能力，同時提高與任務要求的對齊。

結果和見解

在數學推理數據集 GSM8K 和 MATH 上對 DQO 進行的實驗評估顯示了其有效性。在 GSM8K 數據集上，DQO 將表現從基線的 59.06% 提高到 87.26%（貪婪生成），從 53.30% 提高到 84.69%（基於取樣的生成）。這些結果超過了其他基線方法，包括 DPO 和 DRO。同樣，在 MATH 數據集上，DQO 也超越了基線，實現了取樣提高 1.18% 和貪婪生成提高 1.40% 的成績。

通過過程獎勵進一步增強 DQO 的性能，這表明它有潛力納入額外的監督信號。這些結果強調了 DQO 有效處理多步推理任務的能力，並將 LLM 與複雜目標對齊。