1B LLM能否超越405B LLM？優化小型LLM的計算以超越大型模型

測試時間擴展（Test-Time Scaling, TTS）是一種重要技術，可以透過在推理過程中利用額外的計算資源來提升大型語言模型（LLMs）的表現。儘管這項技術有很大的潛力，但目前對於政策模型、過程獎勵模型（Process Reward Models, PRMs）和問題複雜性如何影響TTS的系統性分析仍然很少，這限制了它的實際應用。TTS可以分為內部TTS，這種方法透過延長的思考鏈（Chain-of-Thought, CoT）過程來鼓勵逐步推理，以及外部TTS，這種方法則利用固定模型的抽樣或搜索方法來提升表現。外部TTS的主要挑戰在於如何為不同任務優化計算資源的分配。目前的方法使用PRMs來指導答案選擇，並有效地擴展測試時間計算。然而，如何全面評估這些因素對TTS策略的影響仍然未被探索，這限制了社群對於LLMs最佳計算擴展的理解。

先前的研究探索了多種增強LLM表現的策略，包括多數投票、基於搜索的方法和自我修正技術。測試時間方法如CoT提示、自我驗證和外部工具整合已被證明能有效改善推理，而不需要修改模型參數。PRMs的表現超過輸出獎勵模型（Output Reward Models, ORMs），顯著改善LLM生成的輸出。最近在PRMs方面的進展集中於高效數據收集方法、隱性獎勵和先進的排名技術，以提升數學推理。像ProcessBench和PRMBench這樣的工具已經被開發出來，以便於基準測試和評估PRM的有效性。PRMs和TTS策略的演變強調了系統性研究的必要性，以優化推理時間的計算並提升LLM在各種任務中的能力。

來自上海人工智慧實驗室、清華大學、哈爾濱工業大學和北京郵電大學的研究人員通過對MATH-500和AIME24任務進行廣泛實驗，研究政策模型、PRMs和問題複雜性對TTS的影響。他們的發現顯示，計算最佳的TTS策略依賴於這些因素，使得較小的模型（例如1B、3B、7B）能夠以更高的效率超越較大的模型（例如405B、GPT-4o、DeepSeek-R1）。該研究強調了獎勵感知的TTS對於最佳擴展的重要性，顯示出戰略性測試時間計算能顯著提升LLM在不同架構和任務複雜性下的推理能力。

計算最佳的TTS能為每個問題最佳分配計算資源。先前的方法依賴PRMs作為驗證者，這些PRMs可以是在同一政策模型上訓練的（在線）或是不同的模型（離線）。在線PRMs能提供更準確的獎勵，而離線PRMs則面臨分佈外挑戰。考慮到每個模型訓練PRMs的高成本，需要一種通用的方法。實驗顯示，獎勵對TTS表現有顯著影響。因此，提出了一種獎勵感知的策略，將獎勵整合進計算分配中。此外，問題難度的評估使用絕對閾值而非分位數，能更有效地制定擴展策略。

這項研究檢視了計算最佳TTS在提升小型政策模型表現方面的有效性，與較大的模型相比。實驗評估TTS是否使得較小的模型能超越較大的模型，改善CoT和多數投票，並超越長CoT方法。研究結果顯示，使用計算最佳TTS的小型模型在MATH-500和AIME24任務中能顯著超越更大的模型。TTS的效率提升可達256倍，相較於多數投票，推理能力提升154.6%，而且TTS在多個基於長CoT的方法中表現更佳，顯示出其在增強LLM推理能力方面的有效性。

總結來說，這項研究檢視了各種政策模型、PRMs和任務複雜性下的計算最佳TTS。研究結果強調，使用優化TTS的小型模型可以超越較大的模型，1B模型甚至能超越405B模型。7B的PRM也能有效監督72B的政策模型，強調了從「弱到強」的監督轉變。未來的工作應該專注於改善監督方法，以增強推理能力。雖然這些結果基於數學任務，但將TTS擴展到編程和化學的研究仍未被探索。這些見解強調了TTS在提升LLM效率和適應性方面的潛力，能夠應對各種挑戰。

查看論文和項目頁面。所有研究的功勞都歸於這個項目的研究人員。此外，歡迎在Twitter上關注我們，並別忘了加入我們的75k+機器學習SubReddit。

🚨 推薦的開源AI平台：‘IntellAgent是一個開源的多代理框架，用於評估複雜的對話AI系統’（推廣）

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！