在大型語言模型中優化監督學習與偏好微調之間的訓練數據分配

大型語言模型 (LLMs) 在優化訓練後的方法上面臨著重大挑戰，特別是在平衡監督微調 (SFT) 和強化學習 (RL) 方法之間。SFT 是使用直接的指令-回應對，而 RL 方法如 RLHF 則使用基於偏好的學習，但在這些方法之間如何最佳分配有限的訓練資源仍不清楚。最近的研究顯示，模型可以在沒有大量 SFT 的情況下實現任務對齊和改進推理能力，這挑戰了傳統的後訓練流程。此外，收集和標註人類數據的成本相對於計算成本而言非常高，因此需要了解在固定的數據標註預算下，不同訓練方法的有效性。

現有的研究探討了在固定預算下語言模型訓練的各種權衡，包括預訓練與微調之間的比較，以及微調與模型蒸餾之間的比較。研究考察了 SFT 和 RL 方法的數據和計算成本，以及生成人工和合成數據的成本效益考量。雖然一些研究顯示高質量的偏好數據對 RL 方法如直接偏好優化 (DPO) 和 PPO 的影響，但其他研究則關注 SFT 和 RL 方法之間的關係，涉及模型的遺忘、泛化和對齊。然而，這些研究並未充分解決在嚴格的數據標註約束下，SFT 和基於 RL 的方法之間的最佳資源分配。

喬治亞理工學院的研究人員提出了一項綜合研究，檢視在大型語言模型 (LLMs) 中 SFT 和偏好微調 (PFT) 之間的訓練數據預算的最佳分配。這項研究調查了這種關係在四個不同任務、多個模型大小和各種數據標註成本下的情況。它解決了數學任務中的“冷啟動問題”，即在直接將 DPO 應用於基礎模型時，消除 SFT 會導致性能不佳，因為分佈發生了變化。他們的研究結果顯示，雖然較大的數據預算從結合兩種方法中受益，但即使將預算的一小部分分配給 SFT，也能顯著提高分析任務的性能。

這項研究評估了在 100 億參數的後訓練 LLM 中，SFT 和 PFT 之間的成本效益和最佳資源分配。研究方法通過訓練示例或金錢標註成本來測量數據預算，假設兩種方法的勞動成本相等，並且有可用的訓練提示。實驗設置從沒有特定任務的標註數據開始，使用開源數據集或為每個目標任務合成的數據。為了保持對特定任務改進的關注，常用於 PFT 的通用對話數據集，如 UltraFeedback 和 Chatbot Arena 的偏好被排除。這種控制方法允許精確測量針對性數據標註所帶來的性能改進。

結果顯示，在 SFT 和 PFT 方法之間最佳分配訓練預算至關重要，適當平衡的數據集性能超過了規模大 2-5 倍的次優分配數據集。使用 5K 示例並將 25% 的預算分配給 SFT，對於像總結、幫助性和小學數學這樣的任務，其性能與 20K 示例且 75% SFT 分配的情況相當。研究指出，純 SFT 在數據較少的情況下表現出色，而較大的數據預算則從更高比例的偏好數據中受益。此外，對基礎模型進行直接偏好微調在數學任務上顯示出有限的成功，而將即使一小部分預算分配給 SFT 也能顯著提高性能，因為這樣可以更好地對齊參考模型的回應風格。

總之，這篇論文提供了在資源限制下優化 LLM 後訓練的重要見解，特別是關於 SFT 和 PFT 之間的相互作用。研究指出，在直接將 PFT 應用於基礎模型時存在顯著的“冷啟動問題”，這可以通過將預算的 10% 分配給初始 SFT 來有效緩解。然而，研究也承認了一些限制，包括 DPO 和 KTO 等離線方法在 RL 實施中的使用，以及使用 GPT4 生成和評估合成數據可能帶來的偏見。此外，模型大小限制在 100 億參數，否則進行數千次微調運行將需要極大的計算資源，特別是對於像 700 億參數這樣的較大模型。

查看這篇論文。所有的研究功勞都歸於這個項目的研究人員。此外，歡迎在 Twitter 上關注我們，別忘了加入我們的 80,000+ 人 ML SubReddit。

🚨 推薦閱讀 – LG AI 研究發布 NEXUS：一個先進的系統，整合代理 AI 系統和數據合規標準，以解決 AI 數據集中的法律問題。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 在大型語言模型中優化監督學習與偏好微調之間的訓練數據分配