Tufa Labs 推出 LADDER：一個遞歸學習框架，使大型語言模型能夠在無需人類干預的情況下自我改進

大型語言模型（LLMs）從強化學習技術中獲益良多，這些技術能夠通過學習獎勵來進行反覆改進。然而，如何有效地訓練這些模型仍然是一個挑戰，因為它們通常需要大量的數據集和人類監督來提升能力。開發能讓LLMs自我改進的方法，無需額外的人類輸入或大規模的架構修改，已成為人工智慧（AI）研究的主要焦點。

訓練LLMs的主要挑戰在於確保學習過程的效率和結構性。當模型遇到超出其能力範圍的問題時，訓練過程可能會停滯，導致表現不佳。傳統的強化學習技術依賴於精心策劃的數據集或人類反饋來創建有效的學習路徑，但這種方法需要大量資源。此外，LLMs在沒有結構化難度梯度的情況下，難以系統性地改進，這使得在基本推理任務和更複雜的問題解決之間架起橋樑變得困難。

目前訓練LLMs的方法主要包括監督性微調、來自人類反饋的強化學習（RLHF）和課程學習。監督性微調需要手動標記的數據集，這可能導致過擬合和有限的泛化能力。RLHF引入了一層人類監督，模型根據人類評估進行調整，但這種方法成本高且無法有效擴展。課程學習逐步增加任務難度，顯示出潛力，但目前的實施仍依賴於預先定義的數據集，而不是讓模型生成自己的學習路徑。這些限制突顯了需要一個自主學習框架，使LLMs能夠獨立提高其問題解決能力。

來自Tufa Labs的研究人員提出了LADDER（通過自主難度驅動的例子遞歸學習）以克服這些限制。這個框架使LLMs能夠通過遞歸生成和解決逐漸簡化的複雜問題變體來自我改進。與依賴人類干預或策劃數據集的先前方法不同，LADDER利用模型的能力創建自然的難度梯度，實現結構化的自我學習。研究團隊在數學積分任務上開發並測試了LADDER，證明了其在提高模型性能方面的有效性。通過應用LADDER，研究人員使一個擁有30億參數的Llama 3.2模型在本科積分問題上的準確率從1%提高到82%，這是數學推理能力的一次前所未有的飛躍。此外，該方法還擴展到更大的模型，如Qwen2.5 7B Deepseek-R1 Distilled，在麻省理工學院積分比賽的資格考試中達到了73%的準確率，遠超過僅獲得42%的GPT-4o模型，以及人類的典型表現（15-30%）。

LADDER遵循一種結構化的方法，使LLMs能夠通過系統性地分解複雜問題來啟動其學習過程。該過程涉及三個主要組件：變體生成、解決方案驗證和強化學習。變體生成步驟確保模型生成逐漸簡單的問題版本，形成結構化的難度梯度。解決方案驗證步驟使用數值積分方法來評估生成解決方案的正確性，提供即時反饋而無需人類干預。最後，強化學習組件使用群體相對策略優化（GRPO）來高效訓練模型。這一協議使模型能夠通過利用已驗證的解決方案逐步學習，系統性地改進其問題解決策略。研究人員還通過測試時強化學習（TTRL）擴展了這一方法，該方法在推理過程中動態生成問題變體並應用強化學習來即時改進解決方案。在麻省理工學院積分比賽的資格考試中，TTRL將模型的準確率從73%提升到90%，超越了OpenAI的o1模型。

在對110個本科級別的積分問題數據集進行測試時，使用LADDER訓練的Llama 3.2 3B模型的準確率達到了82%，而使用pass@10抽樣時的準確率僅為2%。該方法還顯示出可擴展性，因為生成變體的數量增加導致性能持續改善。相比之下，沒有變體的強化學習未能實現有意義的增長，進一步強調了結構化問題分解的重要性。研究人員觀察到，使用LADDER訓練的模型能夠解決以前無法處理的高級技術積分問題。在麻省理工學院積分比賽的資格考試中，使用LADDER訓練的Deepseek-R1 Qwen2.5 7B模型超越了未經遞歸訓練的更大模型，展示了結構化自我改進在數學推理中的有效性。

LADDER研究的主要收穫包括：

– 使LLMs能夠通過遞歸生成和解決更簡單的複雜問題變體來自我改進。
– Llama 3.2 3B模型在本科積分任務上的準確率從1%提高到82%，證明了結構化自我學習的有效性。
– Qwen2.5 7B Deepseek-R1 Distilled達到73%的準確率，超越了GPT-4o（42%）並超過了人類表現（15-30%）。
– 準確率從73%進一步提升至90%，超越了OpenAI的o1模型。
– LADDER不需要外部數據集或人類干預，使其成為一種成本效益高且可擴展的LLM訓練解決方案。
– 使用LADDER訓練的模型在問題解決能力上優於沒有結構化難度梯度的強化學習。
– 該框架為AI模型提供了一種結構化的方法，以在沒有外部監督的情況下改進其推理能力。
– 該方法可以擴展到競賽編程、定理證明和基於代理的問題解決。

查看論文。所有對這項研究的讚譽都歸功於這個項目的研究人員。此外，隨時在Twitter上關注我們，並別忘了加入我們的80k+ ML SubReddit。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！