人工智慧 (AI) 代理正在變得越來越先進,能夠在不同的平台上處理複雜的任務。網站和桌面應用程式是為人類使用而設計的,這需要對視覺排列、互動元件和時間行為的理解。處理這些系統需要監控用戶的行為,從點擊到複雜的拖放動作。這些挑戰對於 AI 來說是困難的,無法與人類在網頁任務上競爭。需要一個更廣泛的評估系統來衡量和改善 AI 代理的網頁瀏覽能力。
現有的基準評估 AI 在特定網頁任務上的表現,例如網上購物和訂票,但無法捕捉到現代網頁互動的複雜性。像 GPT-4o、Claude Computer-Use、Gemini-1.5-Pro 和 Qwen2-VL 等模型在導航和任務執行上都面臨挑戰。傳統的評估框架最初是基於強化學習,雖然擴展到網頁任務,但仍然局限於短期情境,導致快速飽和和不完整的評估。現代的網頁互動需要高級技能,例如工具使用、計劃和環境推理,這些都沒有得到充分測試。雖然多代理互動越來越受到關注,但目前的方法無法有效評估 AI 系統之間的合作和競爭。
為了解決當前 AI 基準在網頁互動中的限制,來自 Convergence Labs Ltd. 和 Clusterfudge Ltd. 的研究人員提出了 WebGames,這是一個旨在通過 50 多個互動挑戰來評估網頁瀏覽 AI 代理的框架。這些挑戰包括基本的瀏覽器使用、複雜的輸入管理、思維能力、工作流程自動化和互動娛樂。與之前的基準相比,WebGames 旨在通過分離互動技能並為經過測試的 AI 提供控制來正確測量。其客戶端設計防止對外部資源的依賴,提供統一和可重複的測試。
WebGames 的設計是模組化的。它以標準化的 JSONL 格式指定問題,便於與自動化測試框架集成並擴展其他任務。所有問題遵循確定性驗證結構,確保任務完成時可驗證。該結構通過網頁互動系統地檢查 AI 的表現,量化導航、決策和在動態環境中的適應能力。

研究人員使用 WebGames 評估了領先的視覺-語言基礎模型,包括 GPT-4o、Claude Computer-Use (Sonnet 3.5)、Gemini-1.5-Pro、Qwen2-VL 和一個代理助手,來評估它們的網頁互動能力。由於大多數模型並不是為網頁互動設計的,因此需要通過使用 Playwright 的 Chromium 瀏覽器進行支撐。除了 Claude 之外,這些模型缺乏足夠的圖形用戶界面 (GUI) 基礎來確定確切的像素位置,因此使用了一種標記集 (Set-of-Marks, SoMs) 方法來突出相關元素。這些模型在部分觀察的馬可夫決策過程 (POMDP) 中運行,接收 JPEG 截圖和基於文本的 SoM 元素,同時通過 ReAct 風格的提示方法執行基於工具的操作。評估顯示,Claude 的得分低於 GPT-4,儘管它擁有更精確的網頁控制,這可能是由於 Anthropic 的訓練限制,阻止了類似人類行為的操作。來自 Prolific 的人類參與者輕鬆完成任務,平均花費 80 分鐘,賺取 £18,其中一些達到了 100% 的得分。研究結果顯示,人類與 AI 能力之間存在很大的差距,就像 ARC 挑戰一樣,一些活動如“滑塊交響曲”需要精確的拖放能力,這對模型來說是困難的,顯示了 AI 在現實網站上互動的能力限制。

總結來說,這個提出的基準發現了人類與 AI 在網頁互動任務上的表現存在顯著差距。表現最好的 AI 模型 GPT-4o 只達到了 41.2% 的成功率,而人類則達到了 95.7%。結果顯示,當前的 AI 系統在直觀的網頁互動上面臨挑戰,像 Claude Computer-Use 這樣的模型的限制仍然妨礙了任務的成功。這種方法可以作為進一步研究的參考點,並指導 AI 在靈活性、推理和網頁互動效率方面的改進。
查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時關注我們的 Twitter,別忘了加入我們的 80,000+ 人的機器學習 SubReddit。
🚨 推薦閱讀 – LG AI 研究發布 NEXUS:一個先進的系統,整合代理 AI 系統和數據合規標準,以解決 AI 數據集中的法律問題
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!