星期一, 16 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

一種簡單而強大的大型語言模型測試時間縮放方法

2025-02-07
in 機器學習與應用
0 0
0
一種簡單而強大的大型語言模型測試時間縮放方法
Share on FacebookShare on Twitter
Your Ad


語言模型(LMs)在訓練過程中因為計算能力的提升而有了顯著進步,主要是透過大規模的自我監督預訓練。雖然這種方法產生了強大的模型,但一種新的方法叫做測試時間擴展(test-time scaling)出現了,這種方法專注於通過在推理時增加計算來改善性能。OpenAI的o1模型證實了這種方法的有效性,顯示出透過測試時間計算擴展的推理能力有所增強。然而,重現這些結果卻很具挑戰性,許多嘗試使用像是蒙地卡羅樹搜索(Monte Carlo Tree Search, MCTS)、多智能體方法和強化學習等技術,但即使是像DeepSeek R1這樣的模型也使用了數百萬的樣本和複雜的訓練階段,卻仍未能重現o1的測試時間擴展行為。

為了解決測試時間擴展的挑戰,研究人員開發了各種方法。序列擴展方法使模型能夠生成連續的解決方案,每次迭代都基於之前的結果。基於樹的搜索方法結合了序列和並行擴展,實施了像MCTS和引導束搜索(guided beam search)等技術。REBASE成為一種顯著的方法,利用過程獎勵模型來優化樹搜索,通過平衡的利用和修剪,顯示出比基於取樣的方法和MCTS更優越的性能。這些方法重度依賴獎勵模型,獎勵模型有兩種形式:結果獎勵模型用於評估最佳選擇中的完整解決方案,過程獎勵模型則用於評估基於樹的搜索方法中的個別推理步驟。

來自史丹佛大學(Stanford University)、華盛頓大學(University of Washington)、艾倫人工智慧研究所(Allen Institute for AI)和Contextual AI的研究人員提出了一種簡化的方法來實現測試時間擴展和增強推理能力。他們的方法圍繞兩個關鍵創新:精心策劃的s1K數據集,包含1,000個具有推理痕跡的問題,這些問題是根據難度、多樣性和質量標準選擇的,以及一種名為預算強制(budget forcing)的新技術。這種預算強制機制通過戰略性地插入“等待”(Wait)來控制測試時間的計算,從而縮短或延長模型的思考過程,使模型能夠檢查和修正其推理。這種方法是通過在s1K數據集上微調Qwen2.5-32B-Instruct語言模型來實施的。

數據選擇過程遵循基於質量、難度和多樣性標準的三階段過濾方法。質量過濾階段首先刪除具有API錯誤和格式問題的樣本,將初始數據集減少到51,581個例子,然後從中初步選擇384個高質量樣本。難度評估使用兩個關鍵指標:使用Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct模型進行模型性能評估,正確性由Claude 3.5 Sonnet驗證,推理痕跡長度則由Qwen2.5的分詞器測量。為了多樣性,問題使用數學主題分類系統通過Claude 3.5 Sonnet被分類到特定領域。這一全面的過濾過程最終產生了一個涵蓋50個領域的1,000個樣本的數據集。

s1-32B模型通過測試時間計算擴展和預算強制顯示出顯著的性能提升。s1-32B在優於基礎Qwen2.5-32B-Instruct模型的擴展範式下運作,使用多數投票來驗證序列擴展比並行方法的有效性。此外,s1-32B成為樣本效率最高的開放數據推理模型,僅用1,000個額外的訓練樣本就顯示出明顯的改進。雖然r1-32B的性能更好,但需要800倍的訓練數據。值得注意的是,s1-32B在AIME24上的表現接近Gemini 2.0 Thinking,這表明成功的知識蒸餾。

這篇論文顯示,僅用1,000個精心挑選的例子進行的監督微調(Supervised Fine-Tuning, SFT)可以創建一個競爭力的推理模型,與o1-preview的性能相當,並達到最佳效率。引入的預算強制技術與推理模型結合,成功重現了OpenAI的測試時間擴展行為。這種最小訓練數據的有效性表明,模型的推理能力在預訓練時已經存在於數兆個標記中,微調過程只是激活了這些潛在能力。這與LIMA研究中的“表面對齊假說”(Superficial Alignment Hypothesis)相符,該假說認為相對少量的例子可以有效地將模型的行為與期望結果對齊。

查看論文和GitHub頁面。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的75k+ ML SubReddit。

🚨 推薦的開源AI平台:‘IntellAgent是一個開源的多智能體框架,用於評估複雜的對話AI系統’(推廣)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 一種簡單而強大的大型語言模型測試時間縮放方法
Previous Post

如何一家即食餐製造商利用Robotiq的堆疊解決方案優化效率

Next Post

Google 宣布新的 AI 功能即將推出,適用於非營利組織的 Workspace

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
Google 宣布新的 AI 功能即將推出,適用於非營利組織的 Workspace

Google 宣布新的 AI 功能即將推出,適用於非營利組織的 Workspace

AI與科學領導的未來

AI與科學領導的未來

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。