Salesforce AI 研究推出 AGUVIS：一個統一的純視覺框架，改變跨平台的自主 GUI 互動

圖形使用者介面（GUIs）在電腦與人類互動中扮演著重要的角色，讓使用者能夠在網頁、桌面和行動平台上完成各種任務。自動化技術在這個領域中具有變革性，能顯著提高生產力，並使任務執行變得更流暢，無需手動介入。能夠理解和與GUIs互動的自主代理人有潛力徹底改變工作流程，特別是在重複或複雜的任務環境中。然而，GUIs本身的複雜性和不同平台之間的變化帶來了重大挑戰。每個平台都有獨特的視覺佈局、操作空間和互動邏輯，這使得創建可擴展和穩健的解決方案變得困難。開發能夠自主導航這些環境並在不同平台之間進行概括的系統，仍然是研究人員面臨的持續挑戰。

目前在GUI自動化中有許多技術障礙，其中之一是將自然語言指令與GUIs的多樣視覺表現對齊。傳統方法通常依賴於文本表示，例如HTML或可及性樹，來建模GUI元素。這些方法的限制在於，GUIs本質上是視覺的，而文本抽象無法捕捉視覺設計的細微差別。此外，文本表示在不同平台之間有所不同，導致數據碎片化和性能不一致。這種GUIs的視覺特性與自動化系統中使用的文本輸入之間的不匹配，導致可擴展性降低、推理時間延長和概括能力有限。此外，目前大多數方法無法有效進行多模態推理和基礎，這對於理解複雜的視覺環境至關重要。

現有的工具和技術試圖解決這些挑戰，但成功的程度不一。許多系統依賴於封閉源代碼模型來增強推理和規劃能力。這些模型通常使用自然語言進行交流，以結合基礎和推理過程，但這種方法會導致信息損失，並且缺乏可擴展性。另一個常見的限制是訓練數據集的碎片化，無法為基礎和推理任務提供全面支持。例如，數據集通常強調基礎或推理，但不是兩者兼顧，導致模型在某一領域表現優秀，但在其他領域卻表現不佳。這種分裂妨礙了自主GUI互動的統一解決方案的開發。

香港大學的研究人員和Salesforce Research推出了AGUVIS（7B和72B），這是一個統一框架，旨在通過利用純視覺觀察來克服這些限制。AGUVIS消除了對文本表示的依賴，專注於基於圖像的輸入，將模型的結構與GUIs的視覺特性對齊。該框架在不同平台之間提供了一致的操作空間，促進了跨平台的概括。AGUVIS整合了明確的規劃和多模態推理，以導航複雜的數字環境。研究人員構建了一個大型的GUI代理軌跡數據集，用於以兩階段的過程訓練AGUVIS。該框架的模組化架構，包括可插拔的操作系統，允許無縫適應新環境和任務。

AGUVIS框架採用了兩階段的訓練模式，以賦予模型基礎和推理能力：

在第一階段，模型專注於將自然語言指令與GUI環境中的視覺元素進行基礎和映射。這一階段利用基礎打包策略，將多個指令-行動對捆綁到一個GUI截圖中。這種方法通過最大化每張圖像的效用來提高訓練效率，而不會犧牲準確性。

第二階段引入了規劃和推理，訓練模型在各種平台和場景中執行多步任務。這一階段包含詳細的內部獨白，包括觀察描述、思考和低級行動指令。通過逐步增加訓練數據的複雜性，模型學會以精確和適應性處理細緻的任務。

AGUVIS在離線和現實世界的在線評估中都展示了優異的結果。在GUI基礎方面，模型的平均準確率達到89.2，超越了各種移動、桌面和網頁平台的最先進方法。在在線場景中，AGUVIS在離線規劃任務中，步驟成功率提高了51.9%。此外，該模型的推理成本比GPT-4o降低了93%。通過專注於視覺觀察並整合統一的操作空間，AGUVIS為GUI自動化設立了新的基準，使其成為第一個完全自主的純視覺代理，能夠在不依賴封閉源代碼模型的情況下完成現實世界的任務。