現在,大型語言模型 (LLMs) 正在與多代理系統結合,這些系統中有多個智能代理合作以達成共同目標。多代理框架旨在改善問題解決能力、增強決策能力,並優化人工智慧 (AI) 系統滿足不同用戶需求的能力。通過在代理之間分配責任,這些系統確保更好的任務執行並提供可擴展的解決方案。在客戶支持等應用中,準確的回應和適應能力至關重要。
然而,要部署這些多代理系統,需要創建現實且可擴展的數據集來進行測試和訓練。特定領域數據的稀缺以及對專有信息的隱私擔憂限制了有效訓練 AI 系統的能力。此外,面向客戶的 AI 代理在通過一系列行動或軌跡尋找解決方案時,必須保持邏輯推理和正確性。如果使用錯誤的順序或參數,這個過程往往會導致錯誤。這些不準確性會降低用戶信任度和系統可靠性,因此迫切需要更強大的方法來驗證代理的軌跡並生成現實的測試數據集。
傳統上,解決這些挑戰的方法是依賴人類標記的數據或利用 LLM 作為評判來驗證軌跡。雖然基於 LLM 的解決方案顯示出希望,但它們面臨重大限制,包括對輸入提示的敏感性、基於 API 的模型輸出不一致以及高運營成本。此外,這些方法耗時且需要更有效地擴展,特別是在應用於需要精確和上下文感知回應的複雜領域時。因此,迫切需要一種成本效益高且確定性的解決方案來驗證 AI 代理的行為並確保可靠的結果。
Splunk Inc. 的研究人員提出了一個名為 MAG-V (多代理合成數據生成與驗證框架) 的創新框架,旨在克服這些限制。MAG-V 是一個多代理系統,旨在生成合成數據集並驗證 AI 代理的軌跡。該框架引入了一種新穎的方法,將傳統的機器學習技術與先進的 LLM 能力相結合。與傳統系統不同,MAG-V 不依賴 LLM 作為反饋機制,而是利用確定性方法和機器學習模型來確保軌跡驗證的準確性和可擴展性。
MAG-V 使用三個專門的代理:
- 調查員:調查員生成模擬真實客戶查詢的問題
- 助手:助手根據預定的軌跡作出回應
- 逆向工程師:逆向工程師根據助手的回應創建替代問題
這個過程使框架能夠生成合成數據集,以壓力測試助手的能力。團隊從 19 個問題的種子數據集開始,通過迭代過程擴展到 190 個合成問題。經過嚴格篩選,選出了 45 個高質量問題進行測試。每個問題運行五次,以識別最常見的軌跡,確保數據集的可靠性。
MAG-V 使用語義相似性、圖編輯距離和論點重疊來驗證軌跡。這些特徵訓練機器學習模型,如 k-最近鄰 (k-NN)、支持向量機 (SVM) 和隨機森林。該框架在評估中成功,準確度超過 GPT-4o 評判基準 11%,並在幾個指標上與 GPT-4 的表現相匹配。例如,MAG-V 的 k-NN 模型達到 82.33% 的準確率,並顯示出 71.73 的 F1 分數。這種方法還通過將更便宜的模型(如 GPT-4o-mini)與上下文學習樣本結合,展示了成本效益,指導它們達到與更昂貴的 LLM 相當的表現。
MAG-V 框架通過解決軌跡驗證中的關鍵挑戰來提供結果。其確定性特性確保了一致的結果,消除了與基於 LLM 的方法相關的變異性。通過生成合成數據集,MAG-V 減少了對真實客戶數據的依賴,解決了隱私問題和數據稀缺。該框架利用統計和嵌入特徵來驗證軌跡,代表了 AI 系統可靠性的一個進步。此外,MAG-V 對替代問題的依賴為測試和驗證 AI 代理的推理路徑提供了一種強大的方法。
從 MAG-V 研究中可以得出幾個關鍵要點:
- MAG-V 從 19 個種子數據集中生成了 190 個合成問題,並篩選出 45 個高質量查詢。這一過程展示了支持 AI 測試和訓練的可擴展數據創建潛力。
- 該框架的確定性方法消除了對 LLM 作為評判的依賴,提供了一致和可重複的結果。
- 使用 MAG-V 特徵訓練的機器學習模型在準確性上提高了高達 11% 的 GPT-4o 基準,展示了該方法的有效性。
- 通過將上下文學習與更便宜的 LLM(如 GPT-4o-mini)結合,MAG-V 提供了一種成本效益高的替代方案,而不影響性能。
- 該框架可適應各種領域,並通過利用替代問題來驗證軌跡,展示了可擴展性。
總之,MAG-V 框架有效解決了合成數據生成和 AI 系統軌跡驗證中的關鍵挑戰。該框架通過將多代理系統與傳統機器學習模型(如 k-NN、SVM 和隨機森林)結合,提供了一種可擴展、成本效益高且確定性的解決方案。MAG-V 能夠生成高質量的合成數據集並精確驗證軌跡,使其成為部署可靠 AI 應用的理想選擇。
查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 60k+ ML SubReddit。
🚨 [必須訂閱]:訂閱我們的新聞通訊,以獲取熱門 AI 研究和開發更新
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!