Convergence AI 發布 WebGames：一套全面的基準測試套件，旨在評估通用網頁瀏覽 AI 代理

人工智慧 (AI) 代理正在變得越來越先進，能夠在不同的平台上處理複雜的任務。網站和桌面應用程式是為人類使用而設計的，這需要對視覺排列、互動元件和時間行為的理解。處理這些系統需要監控用戶的行為，從點擊到複雜的拖放動作。這些挑戰對於 AI 來說是困難的，無法與人類在網頁任務上競爭。需要一個更廣泛的評估系統來衡量和改善 AI 代理的網頁瀏覽能力。

現有的基準評估 AI 在特定網頁任務上的表現，例如網上購物和訂票，但無法捕捉到現代網頁互動的複雜性。像 GPT-4o、Claude Computer-Use、Gemini-1.5-Pro 和 Qwen2-VL 等模型在導航和任務執行上都面臨挑戰。傳統的評估框架最初是基於強化學習，雖然擴展到網頁任務，但仍然局限於短期情境，導致快速飽和和不完整的評估。現代的網頁互動需要高級技能，例如工具使用、計劃和環境推理，這些都沒有得到充分測試。雖然多代理互動越來越受到關注，但目前的方法無法有效評估 AI 系統之間的合作和競爭。

為了解決當前 AI 基準在網頁互動中的限制，來自 Convergence Labs Ltd. 和 Clusterfudge Ltd. 的研究人員提出了 WebGames，這是一個旨在通過 50 多個互動挑戰來評估網頁瀏覽 AI 代理的框架。這些挑戰包括基本的瀏覽器使用、複雜的輸入管理、思維能力、工作流程自動化和互動娛樂。與之前的基準相比，WebGames 旨在通過分離互動技能並為經過測試的 AI 提供控制來正確測量。其客戶端設計防止對外部資源的依賴，提供統一和可重複的測試。

WebGames 的設計是模組化的。它以標準化的 JSONL 格式指定問題，便於與自動化測試框架集成並擴展其他任務。所有問題遵循確定性驗證結構，確保任務完成時可驗證。該結構通過網頁互動系統地檢查 AI 的表現，量化導航、決策和在動態環境中的適應能力。

研究人員使用 WebGames 評估了領先的視覺-語言基礎模型，包括 GPT-4o、Claude Computer-Use (Sonnet 3.5)、Gemini-1.5-Pro、Qwen2-VL 和一個代理助手，來評估它們的網頁互動能力。由於大多數模型並不是為網頁互動設計的，因此需要通過使用 Playwright 的 Chromium 瀏覽器進行支撐。除了 Claude 之外，這些模型缺乏足夠的圖形用戶界面 (GUI) 基礎來確定確切的像素位置，因此使用了一種標記集 (Set-of-Marks, SoMs) 方法來突出相關元素。這些模型在部分觀察的馬可夫決策過程 (POMDP) 中運行，接收 JPEG 截圖和基於文本的 SoM 元素，同時通過 ReAct 風格的提示方法執行基於工具的操作。評估顯示，Claude 的得分低於 GPT-4，儘管它擁有更精確的網頁控制，這可能是由於 Anthropic 的訓練限制，阻止了類似人類行為的操作。來自 Prolific 的人類參與者輕鬆完成任務，平均花費 80 分鐘，賺取 £18，其中一些達到了 100% 的得分。研究結果顯示，人類與 AI 能力之間存在很大的差距，就像 ARC 挑戰一樣，一些活動如“滑塊交響曲”需要精確的拖放能力，這對模型來說是困難的，顯示了 AI 在現實網站上互動的能力限制。

總結來說，這個提出的基準發現了人類與 AI 在網頁互動任務上的表現存在顯著差距。表現最好的 AI 模型 GPT-4o 只達到了 41.2% 的成功率，而人類則達到了 95.7%。結果顯示，當前的 AI 系統在直觀的網頁互動上面臨挑戰，像 Claude Computer-Use 這樣的模型的限制仍然妨礙了任務的成功。這種方法可以作為進一步研究的參考點，並指導 AI 在靈活性、推理和網頁互動效率方面的改進。

查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外，隨時關注我們的 Twitter，別忘了加入我們的 80,000+ 人的機器學習 SubReddit。

🚨 推薦閱讀 – LG AI 研究發布 NEXUS：一個先進的系統，整合代理 AI 系統和數據合規標準，以解決 AI 數據集中的法律問題

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！