記憶與泛化：監督式微調 SFT 與強化學習 RL 如何塑造基礎模型學習

現代的人工智慧（AI）系統在訓練後，常常依賴一些技術來調整基礎模型，以適應特定的任務，這些技術包括監督式微調（SFT）和強化學習（RL）。不過，有一個重要的問題尚未解決：這些方法是否幫助模型記住訓練數據，還是能夠適應新的情境？這個區別對於建立能夠應對現實世界變化的穩健AI系統非常重要。

參考資料: https://arxiv.org/pdf/2501.17161

之前的研究表明，SFT可能會導致模型過度擬合訓練數據，使其在面對新的任務變體時變得脆弱。例如，一個經過SFT調整的模型可能在使用特定牌值的算術問題上表現良好（例如，將‘J’視為11），但如果規則改變（例如，‘J’變成10），它就會失敗。同樣，RL依賴獎勵信號，可能會鼓勵靈活的問題解決方式，或強化狹隘的策略。然而，現有的評估常常混淆記憶和真正的概括能力，讓實踐者不確定應該優先考慮哪種方法。在香港大學（HKU）、加州大學伯克利分校（UC Berkeley）、谷歌深度學習（Google DeepMind）和紐約大學（NYU）的一篇最新論文中，研究人員比較了SFT和RL如何影響模型適應未見的基於規則和視覺挑戰的能力。

他們提出在控制環境中測試概括能力，以將記憶與概括區分開來。研究人員設計了兩個任務：GeneralPoints（算術推理）和V-IRL（視覺導航）。這兩個任務都包括分佈內（ID）訓練數據和分佈外（OOD）變體，以測試適應能力：

基於規則的概括（GeneralPoints，如圖3所示）：

任務：使用四個數字創建等於24的方程式，數字來自撲克牌。

變體：改變牌值規則（例如，‘J’ = 11 vs. ‘J’ = 10）或牌的顏色（紅色 vs. 藍色）。

目標：確定模型是否學習算術原則或記住特定規則。

視覺概括（V-IRL，如圖4所示）：

任務：使用視覺地標導航到目標位置。

變體：切換行動空間（絕對方向如“北” vs. 相對指令如“左轉”）或在未見過的城市中測試。

目標：評估空間推理能力，獨立於記憶的地標。

在實驗中，這項研究使用Llama-3.2-Vision-11B作為基礎模型，首先應用SFT（標準做法），然後進行RL。關鍵實驗測量在每個訓練階段後，模型在OOD任務上的表現。現在讓我們討論一些論文中的重要見解：

SFT和RL在學習機制上有何不同？

SFT的記憶偏差：SFT訓練模型複製標記數據中的正確回應。雖然這對於ID任務有效，但這種方法鼓勵模式匹配。例如，如果在GeneralPoints中訓練紅牌，模型會將顏色與特定數字分配聯繫起來。當在藍牌上測試時（OOD），性能會大幅下降，因為它記住了顏色和數字的關聯，而不是算術邏輯。同樣，在V-IRL中，SFT模型記住地標序列，但在新的城市佈局中卻表現不佳。

RL的概括能力：RL優化獎勵最大化，這迫使模型理解任務結構。在GeneralPoints中，經過RL訓練的模型通過關注算術關係來適應新的牌規，而不是固定的值。在V-IRL中，RL代理學習空間關係（例如，“左轉”意味著旋轉90度），而不是記住轉向序列。這使它們對視覺變化（例如不熟悉的地標）具有韌性。

另一個重要的見解是，RL受益於驗證迭代——在單一訓練步驟中多次嘗試解決任務。更多的迭代（例如，10次 vs. 1次）使模型能夠探索多樣的策略，在某些情況下提高OOD性能達+5.99%。

在性能評估中，RL在兩個任務中始終優於SFT，如圖5和6所示：

基於規則的任務：

RL提高了OOD準確率+3.5%（GP-L）和+11.0%（V-IRL-L），而SFT則分別下降-8.1%和-79.5%。

例如：當牌規從‘J=11’改為‘J=10’時，RL模型使用新值調整方程，而SFT模型則重複使用無效的記憶解法。

視覺任務：

RL提升了OOD性能+17.6%（GP-VL）和+61.1%（V-IRL-VL），而SFT則下降-9.9%和-5.6%。

在V-IRL中，RL代理通過識別空間模式導航未見過的城市，而SFT因依賴記憶地標而失敗。

這項研究還表明，SFT對於初始化模型以進行RL是必要的。沒有SFT，RL會遇到困難，因為基礎模型缺乏基本的指令跟隨能力。然而，過度調整的SFT檢查點會損害RL的適應能力，RL在過度SFT後無法恢復OOD性能。然而，研究人員澄清，他們的發現——特定於Llama-3.2基礎模型——與早期的研究（如DeepSeekAI等，2025年）並不矛盾，後者提出在使用替代基礎架構時，可以省略SFT以進行下游RL訓練。

總結來說，這項研究顯示出明確的權衡：SFT擅長擬合訓練數據，但在分佈變化下表現不佳，而RL則優先考慮可適應的、可概括的策略。對於實踐者來說，這意味著RL應該在SFT之後進行，但僅限於模型達到基本任務能力之前。過度依賴SFT可能會“鎖定”記憶模式，限制RL探索新解決方案的能力。然而，RL也不是萬能的；它需要仔細調整（例如，驗證步驟）和均衡的初始化。

查看這篇論文。這項研究的所有功勞都歸於這個項目的研究人員。此外，別忘了在Twitter上關注我們，加入我們的Telegram頻道和LinkedIn小組。還有，別忘了加入我們的70k+機器學習SubReddit。

🚨 介紹IntellAgent：一個開源的多代理框架，用於評估複雜的對話AI系統（推廣）

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！