ToolHop：一個旨在評估大型語言模型在多跳工具使用場景中的新穎數據集

多跳查詢一直以來都是大型語言模型 (LLM) 代理人面臨的挑戰，因為這需要多個推理步驟和來自不同來源的信息。這些查詢對於分析模型的理解、推理和功能調用能力非常重要。在當前新大型模型層出不窮、聲稱擁有無與倫比的能力的時候，多跳工具能夠通過複雜的查詢來實際評估這些模型，讓模型將查詢分解成基本部分，並通過調用和利用合適的工具來逐步解決。此外，多跳工具評估對於推進模型朝向通用智能的發展也變得至關重要。

目前在這個領域的研究還不足以提供可靠的評估方法。到目前為止，提出的方法依賴於工具驅動的數據構建方法，這些查詢是針對特定工具集合進行模擬的。這一不足之處顯示了在確保收集的工具之間的相互依賴性和評估多跳推理方面的漏洞。此外，缺乏可驗證的答案會引入模型偏見和評估錯誤。本文討論了最新的研究，提出了一種可靠的方法來誠實評估大型語言模型的多跳能力。

復旦大學 (Fudan University) 和字節跳動 (ByteDance) 的研究人員提出了 ToolHop，這是一個專門為多跳工具評估設計的數據集，包含 995 個嚴謹設計的用戶查詢和 3,912 個相關工具。ToolHop 聲稱通過多樣的查詢、本地可執行的工具、有意義的相互依賴性、詳細的反饋和可驗證的答案來解決上述所有問題。作者提出了一種新穎的查詢驅動數據構建方法，能夠將單個多跳查詢擴展為全面的多跳工具使用測試案例。

這個新方案包括三個關鍵階段：工具創建、文檔完善和代碼生成。

工具創建：根據用戶提供的多跳查詢創建一組初步的工具文檔。這些文檔旨在保持相互依賴和相關性，通過將查詢分解為基本部分並分別處理每個部分來實現。這樣，文檔就能捕捉查詢的本質，並結構化生成類似的查詢，確保模塊性和凝聚力。

文檔完善：準備好的工具文檔經過全面篩選，以支持在複雜的多跳場景中對模型的評估。在這裡，引入了結果篩選和可自定義格式等新功能，以擴展功能，同時保持原創性。與此同時，參數的數量增加，類型也得到了優化。

代碼生成：在這個階段，根據準備好的工具生成本地可執行的函數。通過這些函數，可以外部調用工具，實現模型和工具之間的無縫多輪互動。

研究團隊使用來自 MoreHopQA 數據集的查詢實施了這一方法。此外，為了確保使用 ToolHop 進行評估，進行了嚴格的五維分析。ToolHop 隨後在來自五個家族的十四個 LLM 上進行了評估，包括開源和閉源模型。評估方法的設計確保了答案的正確性和最小化調用錯誤。作者觀察到，使用工具使模型的性能平均提高了 12%，對於 GPT 模型則提高了 23%。最佳表現的模型即使在提高後也能達到 49.04% 的答案正確率。此外，儘管在回應多跳查詢時使用了工具，模型仍然會出現約 10% 的幻覺現象。

結論：

這篇論文提出了一個全面的數據集，用於解決多跳查詢，並使用專門設計的查詢和工具。實驗的主要發現是，雖然 LLM 在使用工具解決複雜的多跳查詢方面顯著增強了能力，但它們在多跳工具使用能力上仍有相當大的改進空間。

查看論文。這項研究的所有功勞都歸功於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。還有，記得加入我們的 60k+ 機器學習 SubReddit。

🚨 免費即將舉行的 AI 網路研討會 (2025 年 1 月 15 日)：使用合成數據和評估智能提升 LLM 準確性——加入這個網路研討會，獲取可行的見解，以提升 LLM 模型的性能和準確性，同時保護數據隱私。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: ToolHop一個旨在評估大型語言模型在多跳工具使用場景中的新穎數據集