基於大型語言模型的多代理系統(LLM-MA)讓多個語言模型代理可以合作完成複雜的任務,透過分工來完成各自的責任。這些系統被應用在機器人技術、金融和程式設計等領域,但在溝通和改進方面面臨挑戰。文字溝通常常導致冗長且無結構的交流,讓追蹤任務、維持結構和回憶過去的互動變得困難。像辯論和基於反饋的改進方法在過程中也會忽略或偏見重要的輸入,因為處理的順序會影響結果。這些問題限制了LLM-MA系統在處理多步驟問題時的效率。
目前,基於LLM的多代理系統使用辯論、自我改進和多代理反饋來處理複雜任務。這些技術基於文字互動變得無結構且難以控制。代理在跟隨子任務、記住先前的互動和提供一致的回應方面都面臨挑戰。各種溝通結構,包括鏈式和樹狀模型,試圖提高效率,但缺乏明確的協議來結構化信息。反饋改進技術雖然試圖提高準確性,但面臨偏見或重複輸入的挑戰,讓評估變得不可靠。沒有系統化的溝通和大規模的反饋,這些系統仍然效率低下且容易出錯。
為了解決這些問題,日本索尼集團公司(Sony Group Corporation)研究人員提出了TalkHier,這是一個改善多代理系統中溝通和任務協調的框架,使用結構化的協議和階層式的改進。與標準方法不同,TalkHier明確描述了代理的互動和任務的形成,逐漸減少錯誤並提高效率。代理執行正式化的角色,系統自動調整以適應不同的問題,從而改善決策和協調。
這個框架將代理結構化為一個圖形,每個節點代表一個代理,而邊則表示溝通路徑。代理擁有獨立的記憶,這讓他們能夠保存相關信息並根據知情的輸入做出決策,而不需要使用共享記憶。溝通遵循正式的過程:消息包含內容、背景信息和中間輸出。代理被組織成團隊,並由監督者監控過程,部分代理擔任成員和監督者,形成嵌套的層級結構。工作在一系列迭代中分配、評估和改進,直到達到質量標準,目標是提高準確性並減少錯誤。

在評估過程中,研究人員對TalkHier進行了多項基準測試以分析其有效性。在MMLU數據集上,涵蓋道德情境、大學物理、機器學習、形式邏輯和美國外交政策,基於GPT-4o的TalkHier達到了88.38%的最高準確率,超過了AgentVerse(83.66%)和單一代理基準如ReAct–7@(67.19%)和GPT-4o-7@(71.15%),顯示出階層式改進的好處。在WikiQA數據集上,它在開放領域問答中超越了基準,ROUGE-1得分為0.3461(+5.32%),BERTScore為0.6079(+3.30%),超過了AutoGPT(0.3286 ROUGE-1,0.5885 BERTScore)。一項消融研究顯示,去除評估監督者或結構化溝通會顯著降低準確性,確認了它們的重要性。TalkHier在Camera數據集的廣告文本生成中,跨越忠實度、流暢度、吸引力和字符數違規方面超越了OKG 17.63%,人類評估驗證了其多代理評估。雖然OpenAI-o1的內部架構未被揭示,但TalkHier在MMLU上表現競爭力,並在WikiQA上明顯勝過它,顯示出在任務之間的靈活性和對於多數投票及開源多代理系統的優勢。


最後,這個提議的框架透過結合結構化的協議和階層式的改進,改善了LLM多代理系統中的溝通、推理和協調,並在多個基準測試中表現更佳。包含消息、中間結果和背景信息確保了結構化的互動,而不犧牲多樣化的代理反饋。即使API成本增加,TalkHier也為可擴展的客觀多代理合作設立了新的基準。這種方法可以作為後續研究的基準,指導有效的溝通機制和低成本的多代理互動的改進,最終推進基於LLM的合作系統。
查看論文和GitHub頁面。所有的研究成果都歸功於這個項目的研究人員。此外,隨時在Twitter上關注我們,別忘了加入我們的75k+機器學習SubReddit。
🚨 推薦閱讀 – LG AI研究發布NEXUS:一個先進的系統,整合代理AI系統和數據合規標準,以解決AI數據集中的法律問題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!