大型語言模型(LLMs),像是 GPT-3.5 和 GPT-4,在語言生成、理解和翻譯任務上展現了卓越的能力。儘管有這些進步,它們的表現仍然受到訓練數據可用性的限制,許多數據已經被使用。最近的研究探索了透過 LLMs 生成合成數據來自我改善,以解決這一限制。雖然使用像 GPT-4 這樣的先進模型來創建監督數據是一個選擇,但這樣的做法成本高、法律限制多,且受到這些模型固有質量的限制。另一種選擇是 LLMs 可以反覆生成和微調合成數據,但這個過程往往會因多樣性減少而出現收益遞減的情況,限制了在幾輪微調後的改善。
微調方法一般分為三類:人類參與、蒸餾和自我改善。人類參與技術,如強化學習與人類反饋(RLHF)和決策優化(DPO),利用人類的反饋來改善回應,而蒸餾則是使用較大的 LLMs 來訓練較小的模型。自我改善方法,包括推理生成和自我對弈,讓 LLMs 透過生成自己的數據來進行反覆微調。然而,這些方法在有限的迭代後,表現往往會達到瓶頸。為了克服這一限制,最近的研究引入了多代理互動,以在多輪微調中保持性能的提升,實現比傳統自我改善方法更穩定的增長。
來自麻省理工學院(MIT)、哈佛大學(Harvard)、史丹佛大學(Stanford)和谷歌深度學習(Google DeepMind)的研究人員提出了一種多代理的方法,以解決在單一代理微調 LLMs 時觀察到的性能瓶頸。從相同的基礎模型開始,多個 LLMs 在通過多代理互動生成的不同數據上獨立進行微調,促進專業化和多樣性。模型被分為生成代理,負責產生回應,以及評估代理,負責評估和改進這些回應。這個反覆的反饋循環確保了在更多微調輪次中持續的性能提升。這種方法在開源和專有的 LLMs 上進行測試,顯示出在推理任務上有顯著的增長,並能有效地在新數據集上進行零樣本泛化。
多代理微調方法訓練一群語言模型共同解決任務。這包括兩個關鍵步驟:通過多代理辯論生成微調數據集,並使用這個數據集來專業化模型。在討論過程中,多個代理反覆生成回應,根據其他代理的總結來改進輸出,最終結果由多數票決定。然後,模型被微調為生成代理或評估代理。生成模型創造多樣的回應,而評估模型則評估和改進輸出。反覆微調提高了準確性和適應性,並利用微調代理之間的辯論來產生經過改進的、多數票決的輸出。
這項研究在三個語言推理任務上評估了提出的多代理微調(FT)方法:算術、學校數學(GSM)和數學(MATH)。性能通過準確性和標準誤差來評估,使用 500 個範例進行訓練和評估。基準包括單一代理模型、多數投票、多代理辯論和迭代微調方法,如 STaR。提出的方法在各數據集上超越了基準,尤其是在複雜任務如 GSM 和 MATH 上有顯著的增長。多次微調迭代持續提高準確性並保持多樣性,解決了單一代理微調中的過擬合問題。
總之,提出的多代理微調框架通過訓練一群具有不同角色的專業代理來增強語言模型的性能和多樣性。與單一代理自我改善不同,這種方法利用獨立生成的數據進行反覆微調,使模型能夠保留多樣的推理鏈並實現更大的專業化。雖然有效,但多代理微調需要大量的 GPU 記憶體和時間來進行訓練和推理。潛在的改進包括權重共享或將辯論蒸餾成單一模型。這個多功能框架適用於開源和專有模型,超越了單一代理方法,並為未來的研究開啟了整合基於人類反饋的方法,如 RLHF 或 DPO 的可能性。
查看論文和 GitHub 頁面。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 65k+ 機器學習 SubReddit。
🚨 推薦開源平台:Parlant 是一個改變 AI 代理在面對客戶場景中做出決策的框架。(推廣)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!