星期一, 16 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

記憶與泛化:監督式微調 SFT 與強化學習 RL 如何塑造基礎模型學習

2025-02-01
in AI 綜合新聞
0 0
0
記憶與泛化:監督式微調 SFT 與強化學習 RL 如何塑造基礎模型學習
Share on FacebookShare on Twitter
Your Ad


現代的人工智慧(AI)系統在訓練後,常常依賴一些技術來調整基礎模型,以適應特定的任務,這些技術包括監督式微調(SFT)和強化學習(RL)。不過,有一個重要的問題尚未解決:這些方法是否幫助模型記住訓練數據,還是能夠適應新的情境?這個區別對於建立能夠應對現實世界變化的穩健AI系統非常重要。

參考資料: https://arxiv.org/pdf/2501.17161

之前的研究表明,SFT可能會導致模型過度擬合訓練數據,使其在面對新的任務變體時變得脆弱。例如,一個經過SFT調整的模型可能在使用特定牌值的算術問題上表現良好(例如,將‘J’視為11),但如果規則改變(例如,‘J’變成10),它就會失敗。同樣,RL依賴獎勵信號,可能會鼓勵靈活的問題解決方式,或強化狹隘的策略。然而,現有的評估常常混淆記憶和真正的概括能力,讓實踐者不確定應該優先考慮哪種方法。在香港大學(HKU)、加州大學伯克利分校(UC Berkeley)、谷歌深度學習(Google DeepMind)和紐約大學(NYU)的一篇最新論文中,研究人員比較了SFT和RL如何影響模型適應未見的基於規則和視覺挑戰的能力。

他們提出在控制環境中測試概括能力,以將記憶與概括區分開來。研究人員設計了兩個任務:GeneralPoints(算術推理)和V-IRL(視覺導航)。這兩個任務都包括分佈內(ID)訓練數據和分佈外(OOD)變體,以測試適應能力:

基於規則的概括(GeneralPoints,如圖3所示):

任務:使用四個數字創建等於24的方程式,數字來自撲克牌。

變體:改變牌值規則(例如,‘J’ = 11 vs. ‘J’ = 10)或牌的顏色(紅色 vs. 藍色)。

目標:確定模型是否學習算術原則或記住特定規則。

參考資料: https://arxiv.org/pdf/2501.17161

視覺概括(V-IRL,如圖4所示):

任務:使用視覺地標導航到目標位置。

變體:切換行動空間(絕對方向如“北” vs. 相對指令如“左轉”)或在未見過的城市中測試。

目標:評估空間推理能力,獨立於記憶的地標。

參考資料: https://arxiv.org/pdf/2501.17161

在實驗中,這項研究使用Llama-3.2-Vision-11B作為基礎模型,首先應用SFT(標準做法),然後進行RL。關鍵實驗測量在每個訓練階段後,模型在OOD任務上的表現。現在讓我們討論一些論文中的重要見解:

SFT和RL在學習機制上有何不同?

SFT的記憶偏差:SFT訓練模型複製標記數據中的正確回應。雖然這對於ID任務有效,但這種方法鼓勵模式匹配。例如,如果在GeneralPoints中訓練紅牌,模型會將顏色與特定數字分配聯繫起來。當在藍牌上測試時(OOD),性能會大幅下降,因為它記住了顏色和數字的關聯,而不是算術邏輯。同樣,在V-IRL中,SFT模型記住地標序列,但在新的城市佈局中卻表現不佳。

RL的概括能力:RL優化獎勵最大化,這迫使模型理解任務結構。在GeneralPoints中,經過RL訓練的模型通過關注算術關係來適應新的牌規,而不是固定的值。在V-IRL中,RL代理學習空間關係(例如,“左轉”意味著旋轉90度),而不是記住轉向序列。這使它們對視覺變化(例如不熟悉的地標)具有韌性。

另一個重要的見解是,RL受益於驗證迭代——在單一訓練步驟中多次嘗試解決任務。更多的迭代(例如,10次 vs. 1次)使模型能夠探索多樣的策略,在某些情況下提高OOD性能達+5.99%。

在性能評估中,RL在兩個任務中始終優於SFT,如圖5和6所示:

基於規則的任務:

RL提高了OOD準確率+3.5%(GP-L)和+11.0%(V-IRL-L),而SFT則分別下降-8.1%和-79.5%。

例如:當牌規從‘J=11’改為‘J=10’時,RL模型使用新值調整方程,而SFT模型則重複使用無效的記憶解法。

視覺任務:

RL提升了OOD性能+17.6%(GP-VL)和+61.1%(V-IRL-VL),而SFT則下降-9.9%和-5.6%。

在V-IRL中,RL代理通過識別空間模式導航未見過的城市,而SFT因依賴記憶地標而失敗。

這項研究還表明,SFT對於初始化模型以進行RL是必要的。沒有SFT,RL會遇到困難,因為基礎模型缺乏基本的指令跟隨能力。然而,過度調整的SFT檢查點會損害RL的適應能力,RL在過度SFT後無法恢復OOD性能。然而,研究人員澄清,他們的發現——特定於Llama-3.2基礎模型——與早期的研究(如DeepSeekAI等,2025年)並不矛盾,後者提出在使用替代基礎架構時,可以省略SFT以進行下游RL訓練。

總結來說,這項研究顯示出明確的權衡:SFT擅長擬合訓練數據,但在分佈變化下表現不佳,而RL則優先考慮可適應的、可概括的策略。對於實踐者來說,這意味著RL應該在SFT之後進行,但僅限於模型達到基本任務能力之前。過度依賴SFT可能會“鎖定”記憶模式,限制RL探索新解決方案的能力。然而,RL也不是萬能的;它需要仔細調整(例如,驗證步驟)和均衡的初始化。

查看這篇論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的70k+機器學習SubReddit。

🚨 介紹IntellAgent:一個開源的多代理框架,用於評估複雜的對話AI系統(推廣)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: SFT如何塑造基礎模型學習與強化學習記憶與泛化監督式微調
Previous Post

利用 Amazon Bedrock 生成式 AI 建立韌性供應鏈

Next Post

DeepSeek 可能對能源來說並不是好消息

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
DeepSeek 可能對能源來說並不是好消息

DeepSeek 可能對能源來說並不是好消息

好奇心驅動的強化學習來自人類反饋 CD-RLHF:一個減輕語言模型多樣性對齊權衡的 AI 框架

好奇心驅動的強化學習來自人類反饋 CD-RLHF:一個減輕語言模型多樣性對齊權衡的 AI 框架

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。