最近,語言模型(LLMs)的進步大大提升了它們的推理能力,使它們能夠進行文本創作、程式碼生成和邏輯推理等任務。然而,這些模型常常在平衡內部知識和外部工具的使用上遇到困難,導致工具過度使用。當語言模型不必要地依賴外部工具來完成它們的內部知識可以處理的任務時,就會發生這種情況,這樣會增加計算成本,有時還會降低性能。研究顯示,語言模型在不必要的情況下超過30%的時間會使用工具,這顯示它們對自己知識的界限缺乏自我認知。解決這個問題需要更好的調整機制,讓語言模型驅動的代理能夠判斷何時依賴自己的知識,何時使用外部資源,最終提高效率、可擴展性和用戶體驗。
對語言模型知識邊界的研究顯示,雖然這些模型在結構化任務上表現良好,但它們常常無法認識到自己的局限性,導致出現幻覺或不當使用工具的情況。為了解決這些挑戰,研究者們提出了增強檢索生成、信心校準和明確的知識邊界訓練等方法。同樣,對工具整合的研究探討了自適應工具使用、外部模組整合和基於內部不確定性的動態調用策略。儘管有這些進展,現有的基準測試顯示語言模型在判斷工具使用的必要性和適當性方面仍然存在困難。
受到人類元認知的啟發,伊利諾伊大學香檳分校(University of Illinois Urbana-Champaign)和IBM研究AI的研究人員開發了SMART(工具的戰略模型感知推理),以增強語言模型的自我認知並優化工具使用。他們推出了SMART-ER,這是一個涵蓋數學、時間和意圖領域的數據集,指導模型在內部推理和外部工具之間取得平衡,並提供明確的理由。利用這個數據集,SMARTAgent的訓練使工具過度使用減少了24%,而性能提高了37%,使得較小的模型能夠與GPT-4和70B模型相匹配。SMARTAgent在處理不同類型的任務時也表現良好,顯示出更自信的決策能力和有效的工具依賴。
SMART通過平衡內部知識和外部工具來增強代理的元認知,減少工具過度使用。SMART-ER數據集幫助模型區分知識驅動和工具依賴的推理。查詢被分解為結構化步驟,模型決定何時需要工具。推理鏈中包含理由,以改善決策過程,提高可解釋性。SMARTAgent在SMART-ER上進行訓練,微調像Llama-3.1和Mistral這樣的模型,以優化工具使用,同時保持準確性。這種方法使得推理變得動態且具上下文意識,減少對外部工具的依賴,同時提高語言模型的整體性能和決策信心。
研究展示了SMARTAgent在減少過度使用工具的同時提高推理性能的實驗。SMARTAgent在內部數據集(如MATH、FreshQA、IN3)和外部數據集(如GSM8K、MINTQA)上進行評估,並與多個基準進行比較。它將工具依賴減少了24%,同時性能提升了37%。值得注意的是,7B和8B規模的SMARTAgent模型在某些任務中超越了GPT-4o。結果突顯了其高效的工具使用、良好的泛化能力和最佳的決策能力。錯誤分析顯示,SMARTAgent最小化了冗餘的工具調用,提高了推理效率。案例研究顯示其邏輯方法和元認知推理,使其回應更加可解釋和有效。
總結來說,分析突顯了一個關鍵問題:代理經常在內部知識足夠的情況下過度使用外部工具,這可能是因為對自己能力的不確定性或外部查詢的便利性。相反,大型模型如GPT-4o有時會錯誤地低估工具的使用,錯判任務的複雜性。解決這些低效率的問題可能需要資源限制或自適應機制。受到人類決策的啟發,SMART範式在代理依賴工具與參數知識時優化推理。基於數據的調整方法提高了自我認知,減少了不必要的工具使用。未來的工作可以進一步探索信心探測、自我檢查模組和元認知學習,以優化決策效率。
查看論文和GitHub頁面。所有的研究功勞都歸於這個項目的研究人員。此外,隨時在Twitter上關注我們,並別忘了加入我們的80k+機器學習SubReddit。
🚨 推薦閱讀 – LG AI研究發布NEXUS:一個先進的系統,整合代理AI系統和數據合規標準,以解決AI數據集中的法律問題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!