測試時偏好優化：一種新穎的人工智慧框架，通過迭代文本獎勵策略優化推理過程中的大型語言模型輸出

大型語言模型 (LLMs) 已經成為現代生活中不可或缺的一部分，影響著幾乎每一個可想像的領域。它們因在各種複雜任務中的出色表現而受到廣泛認可。然而，也有一些情況出現，LLMs 被批評生成了意外和不安全的回應。因此，持續的研究旨在使 LLMs 更加符合人類的偏好，同時充分利用它們的廣泛訓練數據。

像是來自人類反饋的強化學習 (RLHF) 和直接偏好優化 (DPO) 等方法已被證明有效。然而，這些方法仍然需要反覆訓練，這通常不太實際。因此，研究人員專注於修改推理方法，以匹配基於訓練的優化方法的性能。本文探討了最新的研究，旨在提高推理時的人類偏好對齊。

來自上海人工智慧實驗室的研究人員提出了一種名為測試時偏好優化 (TPO) 的新框架，旨在使 LLM 的輸出與人類偏好對齊。這個框架可以被視為一種在線的、政策導向的學習模式，其中政策模型不斷與新的獎勵模型互動，以改進其輸出。

TPO 採用了一種機制，利用可解釋的文本反饋進行偏好優化，而不是傳統的數值評分。為了實現這一點，作者通過批評將獎勵信號轉換為文本獎勵。然後，模型根據轉換後的獎勵生成建議，並在測試過程中更新其輸出以符合這些信號。

在實際測試中，新的生成回應在每個推理時優化步驟中被評分，回應質量的極端情況被分類為「選擇」或「拒絕」的輸出。模型然後從最佳或「選擇」的輸出中學習其優勢，並從被拒絕的回應中學習其不足，編制出一個「文本損失」。接著，模型為下一次迭代生成建議或「文本梯度」。因此，TPO 根據與文本獎勵的互動不斷改進輸出。

作者使用了對齊和未對齊的政策模型來驗證這一概念，並確定模型在訓練過程中是否經歷了偏好優化。研究中包含的兩個關鍵模型是 Llama-3.1-70B-SFT，這是一個未對齊的模型，沒有在訓練過程中進行偏好優化；以及 Llama-3.1-70B-Instruct，這是一個經過偏好優化訓練的對齊模型。此外，實驗涵蓋了多個數據集，以評估指令遵循、偏好對齊、安全性和數學推理。

這些實驗的結果確認，幾次 TPO 優化步驟顯著提高了對齊和未對齊模型的性能。在將基於 TPO 的推理優化與傳統訓練優化方法進行比較時，研究人員發現未對齊的 Llama-3.1-70B-SFT 模型在經過 TPO 迭代後，表現超過了其對齊的 Llama-3.1-70B-Instruct 模型。此外，將 TPO 應用於一個只有 220 億參數的對齊模型，達到了 53.4% 的 LC 分數和 72.2% 的 WR 分數。

結論：研究團隊介紹了 TPO，這是一個在線的、政策導向的學習框架，旨在通過人類偏好來對齊 LLM 的輸出。這個框架在推理時優化了回應，消除了重新訓練和權重更新的麻煩。此外，TPO 提供了高度的可擴展性和靈活性，使其成為未來 LLM 研究的一個有前景的方案。

查看論文和 GitHub。所有的研究成果都歸功於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。還有，別忘了加入我們的 70k+ ML SubReddit。

🚨 [推薦閱讀] Nebius AI Studio 擴展了視覺模型、新語言模型、嵌入和 LoRA (推廣)

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 測試時偏好優化一種新穎的人工智慧框架通過迭代文本獎勵策略優化推理過程中的大型語言模型輸出