AutoDroid-V2：利用小型語言模型進行自動化移動GUI控制

大型語言模型 (LLMs) 和視覺語言模型 (VLMs) 已經徹底改變了通過自然語言指令自動控制行動裝置的方式，為複雜的使用者任務提供了解決方案。傳統的方法稱為「逐步圖形使用者介面代理」，這種方法在每個圖形使用者介面 (GUI) 狀態下詢問 LLM，以進行動態決策和反思，持續處理使用者的任務，並觀察 GUI 狀態直到任務完成。然而，這種方法面臨重大挑戰，因為它過度依賴強大的雲端模型，如 GPT-4 和 Claude。這引發了有關隱私和安全風險的重大關注，因為需要分享個人 GUI 頁面，並且會消耗大量使用者端的流量，還有高昂的伺服器端集中服務成本，使得大規模部署 GUI 代理變得困難。

早期自動化行動任務的嘗試主要依賴於基於模板的方法，如 Siri、Google 助理和 Cortana，這些方法使用預定義的模板來處理使用者輸入。隨著技術進步，出現了更先進的基於 GUI 的自動化，能夠處理複雜任務，而不需要依賴第三方 API 或大量編程。雖然一些研究人員專注於通過針對 GUI 的訓練和探索性知識獲取來增強小型語言模型 (SLMs)，但這些方法面臨重大限制。基於腳本的 GUI 代理尤其難以應對行動應用程式的動態特性，因為 UI 狀態和元素經常變化，這使得知識提取和腳本執行變得困難。

來自清華大學人工智慧產業研究所 (AIR) 的研究人員提出了 AutoDroid-V2，旨在研究如何基於 SLM 的編碼能力構建強大的 GUI 代理。與傳統的逐步 GUI 代理一次只做一個動作的決策不同，AutoDroid-V2 採用基於腳本的方法，根據使用者指令生成並執行多步驟腳本。此外，它解決了傳統方法的兩個關鍵限制：

效率：代理可以根據使用者的任務生成一個腳本來完成一系列的 GUI 操作，顯著減少查詢頻率和消耗。

能力：基於腳本的 GUI 代理依賴於 SLM 的編碼能力，這在許多現有的輕量級編碼助手研究中已被證明是有效的。

AutoDroid-V2 的架構分為兩個不同的階段：離線和在線處理。在離線階段，系統首先通過全面分析應用程式的探索歷史來構建應用文檔。這份文檔作為腳本生成的基礎，包含 AI 指導的 GUI 狀態壓縮、元素 XPath 自動生成和 GUI 依賴分析，以確保簡潔性和準確性。在在線階段，當使用者提交任務請求時，定制的本地 LLM 生成多步驟腳本，然後由專門設計的解釋器執行，以可靠和高效地處理運行時執行。

AutoDroid-V2 的性能在兩個基準上進行評估，測試了 23 款行動應用程式上的 226 個任務，與 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等領先基準進行比較。結果顯示顯著改善，任務完成率提高了 10.5%-51.7%，同時計算需求降低，輸入和輸出標記消耗分別減少了 43.5 倍和 5.8 倍，LLM 推理延遲比基準低 5.7-13.4 倍。跨不同 LLM (Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B) 測試，AutoDroid-V2 顯示出一致的性能，成功率範圍為 44.6% 到 54.4%，保持了 90.5% 到 93.0% 的穩定逆冗餘比。

總結來說，研究人員介紹了 AutoDroid-V2，這代表了行動任務自動化的一個重要進步，通過其創新的文檔指導、基於腳本的方法，利用設備上的 SLM。實驗結果顯示，這種基於腳本的方法顯著提高了 GUI 代理的效率和性能，達到了與雲端解決方案相當的準確性，同時保持了設備級的隱私和安全。儘管取得了這些成就，但該系統在處理缺乏結構化文本表示的 GUI 應用程式（如基於 Unity 和 Web 的應用程式）時仍面臨限制。然而，這一挑戰可以通過整合 VLM 來解決，以根據視覺特徵恢復結構化的 GUI 表示。

查看論文。所有研究的功勞都歸於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。還有，別忘了加入我們的 60k+ ML SubReddit。

🚨 免費即將舉行的 AI 網路研討會 (2025 年 1 月 15 日)：透過合成數據和評估智慧提升 LLM 準確性——加入這個研討會，獲取提升 LLM 模型性能和準確性的可行見解，同時保護數據隱私。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: AutoDroidV2利用小型語言模型進行自動化移動GUI控制