大型語言模型 (LLMs) 和視覺語言模型 (VLMs) 已經徹底改變了通過自然語言指令自動控制行動裝置的方式,為複雜的使用者任務提供了解決方案。傳統的方法稱為「逐步圖形使用者介面代理」,這種方法在每個圖形使用者介面 (GUI) 狀態下詢問 LLM,以進行動態決策和反思,持續處理使用者的任務,並觀察 GUI 狀態直到任務完成。然而,這種方法面臨重大挑戰,因為它過度依賴強大的雲端模型,如 GPT-4 和 Claude。這引發了有關隱私和安全風險的重大關注,因為需要分享個人 GUI 頁面,並且會消耗大量使用者端的流量,還有高昂的伺服器端集中服務成本,使得大規模部署 GUI 代理變得困難。
早期自動化行動任務的嘗試主要依賴於基於模板的方法,如 Siri、Google 助理和 Cortana,這些方法使用預定義的模板來處理使用者輸入。隨著技術進步,出現了更先進的基於 GUI 的自動化,能夠處理複雜任務,而不需要依賴第三方 API 或大量編程。雖然一些研究人員專注於通過針對 GUI 的訓練和探索性知識獲取來增強小型語言模型 (SLMs),但這些方法面臨重大限制。基於腳本的 GUI 代理尤其難以應對行動應用程式的動態特性,因為 UI 狀態和元素經常變化,這使得知識提取和腳本執行變得困難。
來自清華大學人工智慧產業研究所 (AIR) 的研究人員提出了 AutoDroid-V2,旨在研究如何基於 SLM 的編碼能力構建強大的 GUI 代理。與傳統的逐步 GUI 代理一次只做一個動作的決策不同,AutoDroid-V2 採用基於腳本的方法,根據使用者指令生成並執行多步驟腳本。此外,它解決了傳統方法的兩個關鍵限制:
- 效率:代理可以根據使用者的任務生成一個腳本來完成一系列的 GUI 操作,顯著減少查詢頻率和消耗。
- 能力:基於腳本的 GUI 代理依賴於 SLM 的編碼能力,這在許多現有的輕量級編碼助手研究中已被證明是有效的。
AutoDroid-V2 的架構分為兩個不同的階段:離線和在線處理。在離線階段,系統首先通過全面分析應用程式的探索歷史來構建應用文檔。這份文檔作為腳本生成的基礎,包含 AI 指導的 GUI 狀態壓縮、元素 XPath 自動生成和 GUI 依賴分析,以確保簡潔性和準確性。在在線階段,當使用者提交任務請求時,定制的本地 LLM 生成多步驟腳本,然後由專門設計的解釋器執行,以可靠和高效地處理運行時執行。
AutoDroid-V2 的性能在兩個基準上進行評估,測試了 23 款行動應用程式上的 226 個任務,與 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等領先基準進行比較。結果顯示顯著改善,任務完成率提高了 10.5%-51.7%,同時計算需求降低,輸入和輸出標記消耗分別減少了 43.5 倍和 5.8 倍,LLM 推理延遲比基準低 5.7-13.4 倍。跨不同 LLM (Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B) 測試,AutoDroid-V2 顯示出一致的性能,成功率範圍為 44.6% 到 54.4%,保持了 90.5% 到 93.0% 的穩定逆冗餘比。
總結來說,研究人員介紹了 AutoDroid-V2,這代表了行動任務自動化的一個重要進步,通過其創新的文檔指導、基於腳本的方法,利用設備上的 SLM。實驗結果顯示,這種基於腳本的方法顯著提高了 GUI 代理的效率和性能,達到了與雲端解決方案相當的準確性,同時保持了設備級的隱私和安全。儘管取得了這些成就,但該系統在處理缺乏結構化文本表示的 GUI 應用程式(如基於 Unity 和 Web 的應用程式)時仍面臨限制。然而,這一挑戰可以通過整合 VLM 來解決,以根據視覺特徵恢復結構化的 GUI 表示。
查看論文。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 60k+ ML SubReddit。
🚨 免費即將舉行的 AI 網路研討會 (2025 年 1 月 15 日):透過合成數據和評估智慧提升 LLM 準確性——加入這個研討會,獲取提升 LLM 模型性能和準確性的可行見解,同時保護數據隱私。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!