大型語言模型 (LLMs) 在優化訓練後的方法上面臨著重大挑戰,特別是在平衡監督微調 (SFT) 和強化學習 (RL) 方法之間。SFT 是使用直接的指令-回應對,而 RL 方法如 RLHF 則使用基於偏好的學習,但在這些方法之間如何最佳分配有限的訓練資源仍不清楚。最近的研究顯示,模型可以在沒有大量 SFT 的情況下實現任務對齊和改進推理能力,這挑戰了傳統的後訓練流程。此外,收集和標註人類數據的成本相對於計算成本而言非常高,因此需要了解在固定的數據標註預算下,不同訓練方法的有效性。
現有的研究探討了在固定預算下語言模型訓練的各種權衡,包括預訓練與微調之間的比較,以及微調與模型蒸餾之間的比較。研究考察了 SFT 和 RL 方法的數據和計算成本,以及生成人工和合成數據的成本效益考量。雖然一些研究顯示高質量的偏好數據對 RL 方法如直接偏好優化 (DPO) 和 PPO 的影響,但其他研究則關注 SFT 和 RL 方法之間的關係,涉及模型的遺忘、泛化和對齊。然而,這些研究並未充分解決在嚴格的數據標註約束下,SFT 和基於 RL 的方法之間的最佳資源分配。
喬治亞理工學院的研究人員提出了一項綜合研究,檢視在大型語言模型 (LLMs) 中 SFT 和偏好微調 (PFT) 之間的訓練數據預算的最佳分配。這項研究調查了這種關係在四個不同任務、多個模型大小和各種數據標註成本下的情況。它解決了數學任務中的“冷啟動問題”,即在直接將 DPO 應用於基礎模型時,消除 SFT 會導致性能不佳,因為分佈發生了變化。他們的研究結果顯示,雖然較大的數據預算從結合兩種方法中受益,但即使將預算的一小部分分配給 SFT,也能顯著提高分析任務的性能。
這項研究評估了在 100 億參數的後訓練 LLM 中,SFT 和 PFT 之間的成本效益和最佳資源分配。研究方法通過訓練示例或金錢標註成本來測量數據預算,假設兩種方法的勞動成本相等,並且有可用的訓練提示。實驗設置從沒有特定任務的標註數據開始,使用開源數據集或為每個目標任務合成的數據。為了保持對特定任務改進的關注,常用於 PFT 的通用對話數據集,如 UltraFeedback 和 Chatbot Arena 的偏好被排除。這種控制方法允許精確測量針對性數據標註所帶來的性能改進。
結果顯示,在 SFT 和 PFT 方法之間最佳分配訓練預算至關重要,適當平衡的數據集性能超過了規模大 2-5 倍的次優分配數據集。使用 5K 示例並將 25% 的預算分配給 SFT,對於像總結、幫助性和小學數學這樣的任務,其性能與 20K 示例且 75% SFT 分配的情況相當。研究指出,純 SFT 在數據較少的情況下表現出色,而較大的數據預算則從更高比例的偏好數據中受益。此外,對基礎模型進行直接偏好微調在數學任務上顯示出有限的成功,而將即使一小部分預算分配給 SFT 也能顯著提高性能,因為這樣可以更好地對齊參考模型的回應風格。
總之,這篇論文提供了在資源限制下優化 LLM 後訓練的重要見解,特別是關於 SFT 和 PFT 之間的相互作用。研究指出,在直接將 PFT 應用於基礎模型時存在顯著的“冷啟動問題”,這可以通過將預算的 10% 分配給初始 SFT 來有效緩解。然而,研究也承認了一些限制,包括 DPO 和 KTO 等離線方法在 RL 實施中的使用,以及使用 GPT4 生成和評估合成數據可能帶來的偏見。此外,模型大小限制在 100 億參數,否則進行數千次微調運行將需要極大的計算資源,特別是對於像 700 億參數這樣的較大模型。
查看這篇論文。所有的研究功勞都歸於這個項目的研究人員。此外,歡迎在 Twitter 上關注我們,別忘了加入我們的 80,000+ 人 ML SubReddit。
🚨 推薦閱讀 – LG AI 研究發布 NEXUS:一個先進的系統,整合代理 AI 系統和數據合規標準,以解決 AI 數據集中的法律問題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!