圖形使用者介面(GUIs)在電腦與人類互動中扮演著重要的角色,讓使用者能夠在網頁、桌面和行動平台上完成各種任務。自動化技術在這個領域中具有變革性,能顯著提高生產力,並使任務執行變得更流暢,無需手動介入。能夠理解和與GUIs互動的自主代理人有潛力徹底改變工作流程,特別是在重複或複雜的任務環境中。然而,GUIs本身的複雜性和不同平台之間的變化帶來了重大挑戰。每個平台都有獨特的視覺佈局、操作空間和互動邏輯,這使得創建可擴展和穩健的解決方案變得困難。開發能夠自主導航這些環境並在不同平台之間進行概括的系統,仍然是研究人員面臨的持續挑戰。
目前在GUI自動化中有許多技術障礙,其中之一是將自然語言指令與GUIs的多樣視覺表現對齊。傳統方法通常依賴於文本表示,例如HTML或可及性樹,來建模GUI元素。這些方法的限制在於,GUIs本質上是視覺的,而文本抽象無法捕捉視覺設計的細微差別。此外,文本表示在不同平台之間有所不同,導致數據碎片化和性能不一致。這種GUIs的視覺特性與自動化系統中使用的文本輸入之間的不匹配,導致可擴展性降低、推理時間延長和概括能力有限。此外,目前大多數方法無法有效進行多模態推理和基礎,這對於理解複雜的視覺環境至關重要。
現有的工具和技術試圖解決這些挑戰,但成功的程度不一。許多系統依賴於封閉源代碼模型來增強推理和規劃能力。這些模型通常使用自然語言進行交流,以結合基礎和推理過程,但這種方法會導致信息損失,並且缺乏可擴展性。另一個常見的限制是訓練數據集的碎片化,無法為基礎和推理任務提供全面支持。例如,數據集通常強調基礎或推理,但不是兩者兼顧,導致模型在某一領域表現優秀,但在其他領域卻表現不佳。這種分裂妨礙了自主GUI互動的統一解決方案的開發。
香港大學的研究人員和Salesforce Research推出了AGUVIS(7B和72B),這是一個統一框架,旨在通過利用純視覺觀察來克服這些限制。AGUVIS消除了對文本表示的依賴,專注於基於圖像的輸入,將模型的結構與GUIs的視覺特性對齊。該框架在不同平台之間提供了一致的操作空間,促進了跨平台的概括。AGUVIS整合了明確的規劃和多模態推理,以導航複雜的數字環境。研究人員構建了一個大型的GUI代理軌跡數據集,用於以兩階段的過程訓練AGUVIS。該框架的模組化架構,包括可插拔的操作系統,允許無縫適應新環境和任務。
AGUVIS框架採用了兩階段的訓練模式,以賦予模型基礎和推理能力:
在第一階段,模型專注於將自然語言指令與GUI環境中的視覺元素進行基礎和映射。這一階段利用基礎打包策略,將多個指令-行動對捆綁到一個GUI截圖中。這種方法通過最大化每張圖像的效用來提高訓練效率,而不會犧牲準確性。
第二階段引入了規劃和推理,訓練模型在各種平台和場景中執行多步任務。這一階段包含詳細的內部獨白,包括觀察描述、思考和低級行動指令。通過逐步增加訓練數據的複雜性,模型學會以精確和適應性處理細緻的任務。
AGUVIS在離線和現實世界的在線評估中都展示了優異的結果。在GUI基礎方面,模型的平均準確率達到89.2,超越了各種移動、桌面和網頁平台的最先進方法。在在線場景中,AGUVIS在離線規劃任務中,步驟成功率提高了51.9%。此外,該模型的推理成本比GPT-4o降低了93%。通過專注於視覺觀察並整合統一的操作空間,AGUVIS為GUI自動化設立了新的基準,使其成為第一個完全自主的純視覺代理,能夠在不依賴封閉源代碼模型的情況下完成現實世界的任務。
關於AGUVIS在GUI自動化領域研究的主要收穫:
AGUVIS使用基於圖像的輸入,顯著降低了令牌成本,並使模型與GUIs的視覺特性保持一致。這種方法使720p圖像觀察的令牌成本僅為1,200,而可及性樹的成本為6,000,HTML基於觀察的成本為4,000。
該模型結合了基礎和規劃階段,使其能有效執行單步和多步任務。僅基礎訓練就使模型能夠在單一圖像中處理多個指令,而推理階段則增強了其執行複雜工作流程的能力。
AGUVIS Collection統一並增強了現有數據集,並使用合成數據來支持多模態推理和基礎。這導致了一個多樣且可擴展的數據集,使得訓練穩健和適應性強的模型成為可能。
使用pyautogui命令和可插拔的操作系統,該模型能夠在不同平台之間進行概括,同時適應平台特定的操作,例如在行動設備上滑動。
AGUVIS在GUI基礎基準測試中取得了驚人的結果,網頁平台的準確率為88.3%,移動平台為85.7%,桌面平台為81.8%。此外,它展示了卓越的效率,將推理成本降低了93%,與現有模型相比。
總之,AGUVIS框架解決了GUI自動化中基礎、推理和概括的關鍵挑戰。其純視覺的方法消除了與文本表示相關的低效率,而統一的操作空間使得在不同平台之間的互動變得無縫。這項研究為自主GUI任務提供了一個穩健的解決方案,應用範圍從生產力工具到先進的人工智慧系統。
查看論文、GitHub頁面和項目。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。也別忘了加入我們的60k+ ML SubReddit。
🚨 熱門消息:LG AI研究推出EXAONE 3.5:三個開源雙語前沿AI級模型,提供無與倫比的指令跟隨和長上下文理解,為生成AI卓越的全球領導地位提供支持……。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!