星期六, 14 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

ToolHop:一個旨在評估大型語言模型在多跳工具使用場景中的新穎數據集

2025-01-12
in 機器學習與應用
0 0
0
ToolHop:一個旨在評估大型語言模型在多跳工具使用場景中的新穎數據集
Share on FacebookShare on Twitter
Your Ad


多跳查詢一直以來都是大型語言模型 (LLM) 代理人面臨的挑戰,因為這需要多個推理步驟和來自不同來源的信息。這些查詢對於分析模型的理解、推理和功能調用能力非常重要。在當前新大型模型層出不窮、聲稱擁有無與倫比的能力的時候,多跳工具能夠通過複雜的查詢來實際評估這些模型,讓模型將查詢分解成基本部分,並通過調用和利用合適的工具來逐步解決。此外,多跳工具評估對於推進模型朝向通用智能的發展也變得至關重要。

目前在這個領域的研究還不足以提供可靠的評估方法。到目前為止,提出的方法依賴於工具驅動的數據構建方法,這些查詢是針對特定工具集合進行模擬的。這一不足之處顯示了在確保收集的工具之間的相互依賴性和評估多跳推理方面的漏洞。此外,缺乏可驗證的答案會引入模型偏見和評估錯誤。本文討論了最新的研究,提出了一種可靠的方法來誠實評估大型語言模型的多跳能力。

復旦大學 (Fudan University) 和字節跳動 (ByteDance) 的研究人員提出了 ToolHop,這是一個專門為多跳工具評估設計的數據集,包含 995 個嚴謹設計的用戶查詢和 3,912 個相關工具。ToolHop 聲稱通過多樣的查詢、本地可執行的工具、有意義的相互依賴性、詳細的反饋和可驗證的答案來解決上述所有問題。作者提出了一種新穎的查詢驅動數據構建方法,能夠將單個多跳查詢擴展為全面的多跳工具使用測試案例。

這個新方案包括三個關鍵階段:工具創建、文檔完善和代碼生成。

工具創建:根據用戶提供的多跳查詢創建一組初步的工具文檔。這些文檔旨在保持相互依賴和相關性,通過將查詢分解為基本部分並分別處理每個部分來實現。這樣,文檔就能捕捉查詢的本質,並結構化生成類似的查詢,確保模塊性和凝聚力。

文檔完善:準備好的工具文檔經過全面篩選,以支持在複雜的多跳場景中對模型的評估。在這裡,引入了結果篩選和可自定義格式等新功能,以擴展功能,同時保持原創性。與此同時,參數的數量增加,類型也得到了優化。

代碼生成:在這個階段,根據準備好的工具生成本地可執行的函數。通過這些函數,可以外部調用工具,實現模型和工具之間的無縫多輪互動。

研究團隊使用來自 MoreHopQA 數據集的查詢實施了這一方法。此外,為了確保使用 ToolHop 進行評估,進行了嚴格的五維分析。ToolHop 隨後在來自五個家族的十四個 LLM 上進行了評估,包括開源和閉源模型。評估方法的設計確保了答案的正確性和最小化調用錯誤。作者觀察到,使用工具使模型的性能平均提高了 12%,對於 GPT 模型則提高了 23%。最佳表現的模型即使在提高後也能達到 49.04% 的答案正確率。此外,儘管在回應多跳查詢時使用了工具,模型仍然會出現約 10% 的幻覺現象。

結論:

這篇論文提出了一個全面的數據集,用於解決多跳查詢,並使用專門設計的查詢和工具。實驗的主要發現是,雖然 LLM 在使用工具解決複雜的多跳查詢方面顯著增強了能力,但它們在多跳工具使用能力上仍有相當大的改進空間。

查看論文。這項研究的所有功勞都歸功於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,記得加入我們的 60k+ 機器學習 SubReddit。

🚨 免費即將舉行的 AI 網路研討會 (2025 年 1 月 15 日):使用合成數據和評估智能提升 LLM 準確性——加入這個網路研討會,獲取可行的見解,以提升 LLM 模型的性能和準確性,同時保護數據隱私。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: ToolHop一個旨在評估大型語言模型在多跳工具使用場景中的新穎數據集
Previous Post

機器學習 + openAI:解決文本分類問題 | 由 Ricardo Ribas 著

Next Post

SepLLM:一種實用的人工智慧方法,用於大型語言模型中的高效稀疏注意力

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
SepLLM:一種實用的人工智慧方法,用於大型語言模型中的高效稀疏注意力

SepLLM:一種實用的人工智慧方法,用於大型語言模型中的高效稀疏注意力

大型語言模型(LLMs)是什麼?

大型語言模型(LLMs)是什麼?

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。