測試時間擴展(Test-Time Scaling, TTS)是一種重要技術,可以透過在推理過程中利用額外的計算資源來提升大型語言模型(LLMs)的表現。儘管這項技術有很大的潛力,但目前對於政策模型、過程獎勵模型(Process Reward Models, PRMs)和問題複雜性如何影響TTS的系統性分析仍然很少,這限制了它的實際應用。TTS可以分為內部TTS,這種方法透過延長的思考鏈(Chain-of-Thought, CoT)過程來鼓勵逐步推理,以及外部TTS,這種方法則利用固定模型的抽樣或搜索方法來提升表現。外部TTS的主要挑戰在於如何為不同任務優化計算資源的分配。目前的方法使用PRMs來指導答案選擇,並有效地擴展測試時間計算。然而,如何全面評估這些因素對TTS策略的影響仍然未被探索,這限制了社群對於LLMs最佳計算擴展的理解。
先前的研究探索了多種增強LLM表現的策略,包括多數投票、基於搜索的方法和自我修正技術。測試時間方法如CoT提示、自我驗證和外部工具整合已被證明能有效改善推理,而不需要修改模型參數。PRMs的表現超過輸出獎勵模型(Output Reward Models, ORMs),顯著改善LLM生成的輸出。最近在PRMs方面的進展集中於高效數據收集方法、隱性獎勵和先進的排名技術,以提升數學推理。像ProcessBench和PRMBench這樣的工具已經被開發出來,以便於基準測試和評估PRM的有效性。PRMs和TTS策略的演變強調了系統性研究的必要性,以優化推理時間的計算並提升LLM在各種任務中的能力。
來自上海人工智慧實驗室、清華大學、哈爾濱工業大學和北京郵電大學的研究人員通過對MATH-500和AIME24任務進行廣泛實驗,研究政策模型、PRMs和問題複雜性對TTS的影響。他們的發現顯示,計算最佳的TTS策略依賴於這些因素,使得較小的模型(例如1B、3B、7B)能夠以更高的效率超越較大的模型(例如405B、GPT-4o、DeepSeek-R1)。該研究強調了獎勵感知的TTS對於最佳擴展的重要性,顯示出戰略性測試時間計算能顯著提升LLM在不同架構和任務複雜性下的推理能力。
計算最佳的TTS能為每個問題最佳分配計算資源。先前的方法依賴PRMs作為驗證者,這些PRMs可以是在同一政策模型上訓練的(在線)或是不同的模型(離線)。在線PRMs能提供更準確的獎勵,而離線PRMs則面臨分佈外挑戰。考慮到每個模型訓練PRMs的高成本,需要一種通用的方法。實驗顯示,獎勵對TTS表現有顯著影響。因此,提出了一種獎勵感知的策略,將獎勵整合進計算分配中。此外,問題難度的評估使用絕對閾值而非分位數,能更有效地制定擴展策略。
這項研究檢視了計算最佳TTS在提升小型政策模型表現方面的有效性,與較大的模型相比。實驗評估TTS是否使得較小的模型能超越較大的模型,改善CoT和多數投票,並超越長CoT方法。研究結果顯示,使用計算最佳TTS的小型模型在MATH-500和AIME24任務中能顯著超越更大的模型。TTS的效率提升可達256倍,相較於多數投票,推理能力提升154.6%,而且TTS在多個基於長CoT的方法中表現更佳,顯示出其在增強LLM推理能力方面的有效性。
總結來說,這項研究檢視了各種政策模型、PRMs和任務複雜性下的計算最佳TTS。研究結果強調,使用優化TTS的小型模型可以超越較大的模型,1B模型甚至能超越405B模型。7B的PRM也能有效監督72B的政策模型,強調了從「弱到強」的監督轉變。未來的工作應該專注於改善監督方法,以增強推理能力。雖然這些結果基於數學任務,但將TTS擴展到編程和化學的研究仍未被探索。這些見解強調了TTS在提升LLM效率和適應性方面的潛力,能夠應對各種挑戰。
查看論文和項目頁面。所有研究的功勞都歸於這個項目的研究人員。此外,歡迎在Twitter上關注我們,並別忘了加入我們的75k+機器學習SubReddit。
🚨 推薦的開源AI平台:‘IntellAgent是一個開源的多代理框架,用於評估複雜的對話AI系統’(推廣)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!