星期一, 21 7 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

Convergence AI 發布 WebGames:一套全面的基準測試套件,旨在評估通用網頁瀏覽 AI 代理

2025-02-28
in 機器學習與應用
0 0
0
Convergence AI 發布 WebGames:一套全面的基準測試套件,旨在評估通用網頁瀏覽 AI 代理
Share on FacebookShare on Twitter
Your Ad


人工智慧 (AI) 代理正在變得越來越先進,能夠在不同的平台上處理複雜的任務。網站和桌面應用程式是為人類使用而設計的,這需要對視覺排列、互動元件和時間行為的理解。處理這些系統需要監控用戶的行為,從點擊到複雜的拖放動作。這些挑戰對於 AI 來說是困難的,無法與人類在網頁任務上競爭。需要一個更廣泛的評估系統來衡量和改善 AI 代理的網頁瀏覽能力。

現有的基準評估 AI 在特定網頁任務上的表現,例如網上購物和訂票,但無法捕捉到現代網頁互動的複雜性。像 GPT-4o、Claude Computer-Use、Gemini-1.5-Pro 和 Qwen2-VL 等模型在導航和任務執行上都面臨挑戰。傳統的評估框架最初是基於強化學習,雖然擴展到網頁任務,但仍然局限於短期情境,導致快速飽和和不完整的評估。現代的網頁互動需要高級技能,例如工具使用、計劃和環境推理,這些都沒有得到充分測試。雖然多代理互動越來越受到關注,但目前的方法無法有效評估 AI 系統之間的合作和競爭。

為了解決當前 AI 基準在網頁互動中的限制,來自 Convergence Labs Ltd. 和 Clusterfudge Ltd. 的研究人員提出了 WebGames,這是一個旨在通過 50 多個互動挑戰來評估網頁瀏覽 AI 代理的框架。這些挑戰包括基本的瀏覽器使用、複雜的輸入管理、思維能力、工作流程自動化和互動娛樂。與之前的基準相比,WebGames 旨在通過分離互動技能並為經過測試的 AI 提供控制來正確測量。其客戶端設計防止對外部資源的依賴,提供統一和可重複的測試。

WebGames 的設計是模組化的。它以標準化的 JSONL 格式指定問題,便於與自動化測試框架集成並擴展其他任務。所有問題遵循確定性驗證結構,確保任務完成時可驗證。該結構通過網頁互動系統地檢查 AI 的表現,量化導航、決策和在動態環境中的適應能力。

研究人員使用 WebGames 評估了領先的視覺-語言基礎模型,包括 GPT-4o、Claude Computer-Use (Sonnet 3.5)、Gemini-1.5-Pro、Qwen2-VL 和一個代理助手,來評估它們的網頁互動能力。由於大多數模型並不是為網頁互動設計的,因此需要通過使用 Playwright 的 Chromium 瀏覽器進行支撐。除了 Claude 之外,這些模型缺乏足夠的圖形用戶界面 (GUI) 基礎來確定確切的像素位置,因此使用了一種標記集 (Set-of-Marks, SoMs) 方法來突出相關元素。這些模型在部分觀察的馬可夫決策過程 (POMDP) 中運行,接收 JPEG 截圖和基於文本的 SoM 元素,同時通過 ReAct 風格的提示方法執行基於工具的操作。評估顯示,Claude 的得分低於 GPT-4,儘管它擁有更精確的網頁控制,這可能是由於 Anthropic 的訓練限制,阻止了類似人類行為的操作。來自 Prolific 的人類參與者輕鬆完成任務,平均花費 80 分鐘,賺取 £18,其中一些達到了 100% 的得分。研究結果顯示,人類與 AI 能力之間存在很大的差距,就像 ARC 挑戰一樣,一些活動如“滑塊交響曲”需要精確的拖放能力,這對模型來說是困難的,顯示了 AI 在現實網站上互動的能力限制。

總結來說,這個提出的基準發現了人類與 AI 在網頁互動任務上的表現存在顯著差距。表現最好的 AI 模型 GPT-4o 只達到了 41.2% 的成功率,而人類則達到了 95.7%。結果顯示,當前的 AI 系統在直觀的網頁互動上面臨挑戰,像 Claude Computer-Use 這樣的模型的限制仍然妨礙了任務的成功。這種方法可以作為進一步研究的參考點,並指導 AI 在靈活性、推理和網頁互動效率方面的改進。

查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時關注我們的 Twitter,別忘了加入我們的 80,000+ 人的機器學習 SubReddit。

🚨 推薦閱讀 – LG AI 研究發布 NEXUS:一個先進的系統,整合代理 AI 系統和數據合規標準,以解決 AI 數據集中的法律問題



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: ConvergenceWebGames一套全面的基準測試套件旨在評估通用網頁瀏覽代理發布
Previous Post

像素空間擴散模型的小說視圖合成

Next Post

2025年最佳網路取證軟體:Windows取證及其他頂尖工具

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
2025年最佳網路取證軟體:Windows取證及其他頂尖工具

2025年最佳網路取證軟體:Windows取證及其他頂尖工具

透過數據驅動的交通工程改善社區流動性

透過數據驅動的交通工程改善社區流動性

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。