星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

在大型語言模型中優化監督學習與偏好微調之間的訓練數據分配

2025-02-24
in AI 綜合新聞
0 0
0
在大型語言模型中優化監督學習與偏好微調之間的訓練數據分配
Share on FacebookShare on Twitter
Your Ad


大型語言模型 (LLMs) 在優化訓練後的方法上面臨著重大挑戰,特別是在平衡監督微調 (SFT) 和強化學習 (RL) 方法之間。SFT 是使用直接的指令-回應對,而 RL 方法如 RLHF 則使用基於偏好的學習,但在這些方法之間如何最佳分配有限的訓練資源仍不清楚。最近的研究顯示,模型可以在沒有大量 SFT 的情況下實現任務對齊和改進推理能力,這挑戰了傳統的後訓練流程。此外,收集和標註人類數據的成本相對於計算成本而言非常高,因此需要了解在固定的數據標註預算下,不同訓練方法的有效性。

現有的研究探討了在固定預算下語言模型訓練的各種權衡,包括預訓練與微調之間的比較,以及微調與模型蒸餾之間的比較。研究考察了 SFT 和 RL 方法的數據和計算成本,以及生成人工和合成數據的成本效益考量。雖然一些研究顯示高質量的偏好數據對 RL 方法如直接偏好優化 (DPO) 和 PPO 的影響,但其他研究則關注 SFT 和 RL 方法之間的關係,涉及模型的遺忘、泛化和對齊。然而,這些研究並未充分解決在嚴格的數據標註約束下,SFT 和基於 RL 的方法之間的最佳資源分配。

喬治亞理工學院的研究人員提出了一項綜合研究,檢視在大型語言模型 (LLMs) 中 SFT 和偏好微調 (PFT) 之間的訓練數據預算的最佳分配。這項研究調查了這種關係在四個不同任務、多個模型大小和各種數據標註成本下的情況。它解決了數學任務中的“冷啟動問題”,即在直接將 DPO 應用於基礎模型時,消除 SFT 會導致性能不佳,因為分佈發生了變化。他們的研究結果顯示,雖然較大的數據預算從結合兩種方法中受益,但即使將預算的一小部分分配給 SFT,也能顯著提高分析任務的性能。

這項研究評估了在 100 億參數的後訓練 LLM 中,SFT 和 PFT 之間的成本效益和最佳資源分配。研究方法通過訓練示例或金錢標註成本來測量數據預算,假設兩種方法的勞動成本相等,並且有可用的訓練提示。實驗設置從沒有特定任務的標註數據開始,使用開源數據集或為每個目標任務合成的數據。為了保持對特定任務改進的關注,常用於 PFT 的通用對話數據集,如 UltraFeedback 和 Chatbot Arena 的偏好被排除。這種控制方法允許精確測量針對性數據標註所帶來的性能改進。

結果顯示,在 SFT 和 PFT 方法之間最佳分配訓練預算至關重要,適當平衡的數據集性能超過了規模大 2-5 倍的次優分配數據集。使用 5K 示例並將 25% 的預算分配給 SFT,對於像總結、幫助性和小學數學這樣的任務,其性能與 20K 示例且 75% SFT 分配的情況相當。研究指出,純 SFT 在數據較少的情況下表現出色,而較大的數據預算則從更高比例的偏好數據中受益。此外,對基礎模型進行直接偏好微調在數學任務上顯示出有限的成功,而將即使一小部分預算分配給 SFT 也能顯著提高性能,因為這樣可以更好地對齊參考模型的回應風格。

總之,這篇論文提供了在資源限制下優化 LLM 後訓練的重要見解,特別是關於 SFT 和 PFT 之間的相互作用。研究指出,在直接將 PFT 應用於基礎模型時存在顯著的“冷啟動問題”,這可以通過將預算的 10% 分配給初始 SFT 來有效緩解。然而,研究也承認了一些限制,包括 DPO 和 KTO 等離線方法在 RL 實施中的使用,以及使用 GPT4 生成和評估合成數據可能帶來的偏見。此外,模型大小限制在 100 億參數,否則進行數千次微調運行將需要極大的計算資源,特別是對於像 700 億參數這樣的較大模型。

查看這篇論文。所有的研究功勞都歸於這個項目的研究人員。此外,歡迎在 Twitter 上關注我們,別忘了加入我們的 80,000+ 人 ML SubReddit。

🚨 推薦閱讀 – LG AI 研究發布 NEXUS:一個先進的系統,整合代理 AI 系統和數據合規標準,以解決 AI 數據集中的法律問題。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 在大型語言模型中優化監督學習與偏好微調之間的訓練數據分配
Previous Post

Web Summit Qatar 2025AI 的未來在多哈揭示

Next Post

建立法律 AI 聊天機器人:使用 bigscience/T0pp LLM、開源 NLP 模型、Streamlit、PyTorch 和 Hugging Face Transformers 的逐步指南

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
建立法律 AI 聊天機器人:使用 bigscience/T0pp LLM、開源 NLP 模型、Streamlit、PyTorch 和 Hugging Face Transformers 的逐步指南

建立法律 AI 聊天機器人:使用 bigscience/T0pp LLM、開源 NLP 模型、Streamlit、PyTorch 和 Hugging Face Transformers 的逐步指南

微軟研究人員推出 BioEmu-1:一種能在單一 GPU 上每小時生成數千種蛋白質結構的深度學習模型

微軟研究人員推出 BioEmu-1:一種能在單一 GPU 上每小時生成數千種蛋白質結構的深度學習模型

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。