星期日, 25 5 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

Salesforce AI 研究推出 AGUVIS:一個統一的純視覺框架,改變跨平台的自主 GUI 互動

2024-12-25
in AI 綜合新聞
0 0
0
Salesforce AI 研究推出 AGUVIS:一個統一的純視覺框架,改變跨平台的自主 GUI 互動
Share on FacebookShare on Twitter
Your Ad


圖形使用者介面(GUIs)在電腦與人類互動中扮演著重要的角色,讓使用者能夠在網頁、桌面和行動平台上完成各種任務。自動化技術在這個領域中具有變革性,能顯著提高生產力,並使任務執行變得更流暢,無需手動介入。能夠理解和與GUIs互動的自主代理人有潛力徹底改變工作流程,特別是在重複或複雜的任務環境中。然而,GUIs本身的複雜性和不同平台之間的變化帶來了重大挑戰。每個平台都有獨特的視覺佈局、操作空間和互動邏輯,這使得創建可擴展和穩健的解決方案變得困難。開發能夠自主導航這些環境並在不同平台之間進行概括的系統,仍然是研究人員面臨的持續挑戰。

目前在GUI自動化中有許多技術障礙,其中之一是將自然語言指令與GUIs的多樣視覺表現對齊。傳統方法通常依賴於文本表示,例如HTML或可及性樹,來建模GUI元素。這些方法的限制在於,GUIs本質上是視覺的,而文本抽象無法捕捉視覺設計的細微差別。此外,文本表示在不同平台之間有所不同,導致數據碎片化和性能不一致。這種GUIs的視覺特性與自動化系統中使用的文本輸入之間的不匹配,導致可擴展性降低、推理時間延長和概括能力有限。此外,目前大多數方法無法有效進行多模態推理和基礎,這對於理解複雜的視覺環境至關重要。

現有的工具和技術試圖解決這些挑戰,但成功的程度不一。許多系統依賴於封閉源代碼模型來增強推理和規劃能力。這些模型通常使用自然語言進行交流,以結合基礎和推理過程,但這種方法會導致信息損失,並且缺乏可擴展性。另一個常見的限制是訓練數據集的碎片化,無法為基礎和推理任務提供全面支持。例如,數據集通常強調基礎或推理,但不是兩者兼顧,導致模型在某一領域表現優秀,但在其他領域卻表現不佳。這種分裂妨礙了自主GUI互動的統一解決方案的開發。

香港大學的研究人員和Salesforce Research推出了AGUVIS(7B和72B),這是一個統一框架,旨在通過利用純視覺觀察來克服這些限制。AGUVIS消除了對文本表示的依賴,專注於基於圖像的輸入,將模型的結構與GUIs的視覺特性對齊。該框架在不同平台之間提供了一致的操作空間,促進了跨平台的概括。AGUVIS整合了明確的規劃和多模態推理,以導航複雜的數字環境。研究人員構建了一個大型的GUI代理軌跡數據集,用於以兩階段的過程訓練AGUVIS。該框架的模組化架構,包括可插拔的操作系統,允許無縫適應新環境和任務。

AGUVIS框架採用了兩階段的訓練模式,以賦予模型基礎和推理能力:

在第一階段,模型專注於將自然語言指令與GUI環境中的視覺元素進行基礎和映射。這一階段利用基礎打包策略,將多個指令-行動對捆綁到一個GUI截圖中。這種方法通過最大化每張圖像的效用來提高訓練效率,而不會犧牲準確性。

第二階段引入了規劃和推理,訓練模型在各種平台和場景中執行多步任務。這一階段包含詳細的內部獨白,包括觀察描述、思考和低級行動指令。通過逐步增加訓練數據的複雜性,模型學會以精確和適應性處理細緻的任務。

AGUVIS在離線和現實世界的在線評估中都展示了優異的結果。在GUI基礎方面,模型的平均準確率達到89.2,超越了各種移動、桌面和網頁平台的最先進方法。在在線場景中,AGUVIS在離線規劃任務中,步驟成功率提高了51.9%。此外,該模型的推理成本比GPT-4o降低了93%。通過專注於視覺觀察並整合統一的操作空間,AGUVIS為GUI自動化設立了新的基準,使其成為第一個完全自主的純視覺代理,能夠在不依賴封閉源代碼模型的情況下完成現實世界的任務。

關於AGUVIS在GUI自動化領域研究的主要收穫:

AGUVIS使用基於圖像的輸入,顯著降低了令牌成本,並使模型與GUIs的視覺特性保持一致。這種方法使720p圖像觀察的令牌成本僅為1,200,而可及性樹的成本為6,000,HTML基於觀察的成本為4,000。

該模型結合了基礎和規劃階段,使其能有效執行單步和多步任務。僅基礎訓練就使模型能夠在單一圖像中處理多個指令,而推理階段則增強了其執行複雜工作流程的能力。

AGUVIS Collection統一並增強了現有數據集,並使用合成數據來支持多模態推理和基礎。這導致了一個多樣且可擴展的數據集,使得訓練穩健和適應性強的模型成為可能。

使用pyautogui命令和可插拔的操作系統,該模型能夠在不同平台之間進行概括,同時適應平台特定的操作,例如在行動設備上滑動。

AGUVIS在GUI基礎基準測試中取得了驚人的結果,網頁平台的準確率為88.3%,移動平台為85.7%,桌面平台為81.8%。此外,它展示了卓越的效率,將推理成本降低了93%,與現有模型相比。

總之,AGUVIS框架解決了GUI自動化中基礎、推理和概括的關鍵挑戰。其純視覺的方法消除了與文本表示相關的低效率,而統一的操作空間使得在不同平台之間的互動變得無縫。這項研究為自主GUI任務提供了一個穩健的解決方案,應用範圍從生產力工具到先進的人工智慧系統。

查看論文、GitHub頁面和項目。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。也別忘了加入我們的60k+ ML SubReddit。

🚨 熱門消息:LG AI研究推出EXAONE 3.5:三個開源雙語前沿AI級模型,提供無與倫比的指令跟隨和長上下文理解,為生成AI卓越的全球領導地位提供支持……。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: AGUVIS一個統一的純視覺框架改變跨平台的自主GUIsalesforce互動研究推出
Previous Post

翼與DoorDash在達拉斯-沃斯堡購物中心推出無人機配送服務

Next Post

這篇由數據來源倡議團隊撰寫的人工智慧論文突顯了負責任開發中多模態數據集來源、授權、表徵和透明度的挑戰

Related Posts

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
這篇由數據來源倡議團隊撰寫的人工智慧論文突顯了負責任開發中多模態數據集來源、授權、表徵和透明度的挑戰

這篇由數據來源倡議團隊撰寫的人工智慧論文突顯了負責任開發中多模態數據集來源、授權、表徵和透明度的挑戰

機率分佈:泊松分佈與二項分佈 | 作者:安成炫 | 2024年12月

機率分佈:泊松分佈與二項分佈 | 作者:安成炫 | 2024年12月

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。