語言模型(LMs)在訓練過程中因為計算能力的提升而有了顯著進步,主要是透過大規模的自我監督預訓練。雖然這種方法產生了強大的模型,但一種新的方法叫做測試時間擴展(test-time scaling)出現了,這種方法專注於通過在推理時增加計算來改善性能。OpenAI的o1模型證實了這種方法的有效性,顯示出透過測試時間計算擴展的推理能力有所增強。然而,重現這些結果卻很具挑戰性,許多嘗試使用像是蒙地卡羅樹搜索(Monte Carlo Tree Search, MCTS)、多智能體方法和強化學習等技術,但即使是像DeepSeek R1這樣的模型也使用了數百萬的樣本和複雜的訓練階段,卻仍未能重現o1的測試時間擴展行為。
為了解決測試時間擴展的挑戰,研究人員開發了各種方法。序列擴展方法使模型能夠生成連續的解決方案,每次迭代都基於之前的結果。基於樹的搜索方法結合了序列和並行擴展,實施了像MCTS和引導束搜索(guided beam search)等技術。REBASE成為一種顯著的方法,利用過程獎勵模型來優化樹搜索,通過平衡的利用和修剪,顯示出比基於取樣的方法和MCTS更優越的性能。這些方法重度依賴獎勵模型,獎勵模型有兩種形式:結果獎勵模型用於評估最佳選擇中的完整解決方案,過程獎勵模型則用於評估基於樹的搜索方法中的個別推理步驟。
來自史丹佛大學(Stanford University)、華盛頓大學(University of Washington)、艾倫人工智慧研究所(Allen Institute for AI)和Contextual AI的研究人員提出了一種簡化的方法來實現測試時間擴展和增強推理能力。他們的方法圍繞兩個關鍵創新:精心策劃的s1K數據集,包含1,000個具有推理痕跡的問題,這些問題是根據難度、多樣性和質量標準選擇的,以及一種名為預算強制(budget forcing)的新技術。這種預算強制機制通過戰略性地插入“等待”(Wait)來控制測試時間的計算,從而縮短或延長模型的思考過程,使模型能夠檢查和修正其推理。這種方法是通過在s1K數據集上微調Qwen2.5-32B-Instruct語言模型來實施的。
數據選擇過程遵循基於質量、難度和多樣性標準的三階段過濾方法。質量過濾階段首先刪除具有API錯誤和格式問題的樣本,將初始數據集減少到51,581個例子,然後從中初步選擇384個高質量樣本。難度評估使用兩個關鍵指標:使用Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct模型進行模型性能評估,正確性由Claude 3.5 Sonnet驗證,推理痕跡長度則由Qwen2.5的分詞器測量。為了多樣性,問題使用數學主題分類系統通過Claude 3.5 Sonnet被分類到特定領域。這一全面的過濾過程最終產生了一個涵蓋50個領域的1,000個樣本的數據集。
s1-32B模型通過測試時間計算擴展和預算強制顯示出顯著的性能提升。s1-32B在優於基礎Qwen2.5-32B-Instruct模型的擴展範式下運作,使用多數投票來驗證序列擴展比並行方法的有效性。此外,s1-32B成為樣本效率最高的開放數據推理模型,僅用1,000個額外的訓練樣本就顯示出明顯的改進。雖然r1-32B的性能更好,但需要800倍的訓練數據。值得注意的是,s1-32B在AIME24上的表現接近Gemini 2.0 Thinking,這表明成功的知識蒸餾。
這篇論文顯示,僅用1,000個精心挑選的例子進行的監督微調(Supervised Fine-Tuning, SFT)可以創建一個競爭力的推理模型,與o1-preview的性能相當,並達到最佳效率。引入的預算強制技術與推理模型結合,成功重現了OpenAI的測試時間擴展行為。這種最小訓練數據的有效性表明,模型的推理能力在預訓練時已經存在於數兆個標記中,微調過程只是激活了這些潛在能力。這與LIMA研究中的“表面對齊假說”(Superficial Alignment Hypothesis)相符,該假說認為相對少量的例子可以有效地將模型的行為與期望結果對齊。
查看論文和GitHub頁面。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的75k+ ML SubReddit。
🚨 推薦的開源AI平台:‘IntellAgent是一個開源的多智能體框架,用於評估複雜的對話AI系統’(推廣)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!