星期六, 7 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

透過多智能體微調提升語言模型的性能與多樣性

2025-01-15
in AI 綜合新聞
0 0
0
透過多智能體微調提升語言模型的性能與多樣性
Share on FacebookShare on Twitter
Your Ad


大型語言模型(LLMs),像是 GPT-3.5 和 GPT-4,在語言生成、理解和翻譯任務上展現了卓越的能力。儘管有這些進步,它們的表現仍然受到訓練數據可用性的限制,許多數據已經被使用。最近的研究探索了透過 LLMs 生成合成數據來自我改善,以解決這一限制。雖然使用像 GPT-4 這樣的先進模型來創建監督數據是一個選擇,但這樣的做法成本高、法律限制多,且受到這些模型固有質量的限制。另一種選擇是 LLMs 可以反覆生成和微調合成數據,但這個過程往往會因多樣性減少而出現收益遞減的情況,限制了在幾輪微調後的改善。

微調方法一般分為三類:人類參與、蒸餾和自我改善。人類參與技術,如強化學習與人類反饋(RLHF)和決策優化(DPO),利用人類的反饋來改善回應,而蒸餾則是使用較大的 LLMs 來訓練較小的模型。自我改善方法,包括推理生成和自我對弈,讓 LLMs 透過生成自己的數據來進行反覆微調。然而,這些方法在有限的迭代後,表現往往會達到瓶頸。為了克服這一限制,最近的研究引入了多代理互動,以在多輪微調中保持性能的提升,實現比傳統自我改善方法更穩定的增長。

來自麻省理工學院(MIT)、哈佛大學(Harvard)、史丹佛大學(Stanford)和谷歌深度學習(Google DeepMind)的研究人員提出了一種多代理的方法,以解決在單一代理微調 LLMs 時觀察到的性能瓶頸。從相同的基礎模型開始,多個 LLMs 在通過多代理互動生成的不同數據上獨立進行微調,促進專業化和多樣性。模型被分為生成代理,負責產生回應,以及評估代理,負責評估和改進這些回應。這個反覆的反饋循環確保了在更多微調輪次中持續的性能提升。這種方法在開源和專有的 LLMs 上進行測試,顯示出在推理任務上有顯著的增長,並能有效地在新數據集上進行零樣本泛化。

多代理微調方法訓練一群語言模型共同解決任務。這包括兩個關鍵步驟:通過多代理辯論生成微調數據集,並使用這個數據集來專業化模型。在討論過程中,多個代理反覆生成回應,根據其他代理的總結來改進輸出,最終結果由多數票決定。然後,模型被微調為生成代理或評估代理。生成模型創造多樣的回應,而評估模型則評估和改進輸出。反覆微調提高了準確性和適應性,並利用微調代理之間的辯論來產生經過改進的、多數票決的輸出。

這項研究在三個語言推理任務上評估了提出的多代理微調(FT)方法:算術、學校數學(GSM)和數學(MATH)。性能通過準確性和標準誤差來評估,使用 500 個範例進行訓練和評估。基準包括單一代理模型、多數投票、多代理辯論和迭代微調方法,如 STaR。提出的方法在各數據集上超越了基準,尤其是在複雜任務如 GSM 和 MATH 上有顯著的增長。多次微調迭代持續提高準確性並保持多樣性,解決了單一代理微調中的過擬合問題。

總之,提出的多代理微調框架通過訓練一群具有不同角色的專業代理來增強語言模型的性能和多樣性。與單一代理自我改善不同,這種方法利用獨立生成的數據進行反覆微調,使模型能夠保留多樣的推理鏈並實現更大的專業化。雖然有效,但多代理微調需要大量的 GPU 記憶體和時間來進行訓練和推理。潛在的改進包括權重共享或將辯論蒸餾成單一模型。這個多功能框架適用於開源和專有模型,超越了單一代理方法,並為未來的研究開啟了整合基於人類反饋的方法,如 RLHF 或 DPO 的可能性。

查看論文和 GitHub 頁面。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 65k+ 機器學習 SubReddit。

🚨 推薦開源平台:Parlant 是一個改變 AI 代理在面對客戶場景中做出決策的框架。(推廣)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 透過多智能體微調提升語言模型的性能與多樣性
Previous Post

GTC量子日:照亮量子計算的未來

Next Post

阿里巴巴 Qwen 團隊剛發布《數學推理中開發過程獎勵模型的課程》,以及最先進的 7B 和 72B PRMs

Related Posts

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
阿里巴巴 Qwen 團隊剛發布《數學推理中開發過程獎勵模型的課程》,以及最先進的 7B 和 72B PRMs

阿里巴巴 Qwen 團隊剛發布《數學推理中開發過程獎勵模型的課程》,以及最先進的 7B 和 72B PRMs

另一個推動您立即開始後量子密碼學(PQC)準備的機會

另一個推動您立即開始後量子密碼學(PQC)準備的機會

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。