星期三, 14 5 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

AutoDroid-V2:利用小型語言模型進行自動化移動GUI控制

2025-01-02
in 機器學習與應用
0 0
0
AutoDroid-V2:利用小型語言模型進行自動化移動GUI控制
Share on FacebookShare on Twitter
Your Ad


大型語言模型 (LLMs) 和視覺語言模型 (VLMs) 已經徹底改變了通過自然語言指令自動控制行動裝置的方式,為複雜的使用者任務提供了解決方案。傳統的方法稱為「逐步圖形使用者介面代理」,這種方法在每個圖形使用者介面 (GUI) 狀態下詢問 LLM,以進行動態決策和反思,持續處理使用者的任務,並觀察 GUI 狀態直到任務完成。然而,這種方法面臨重大挑戰,因為它過度依賴強大的雲端模型,如 GPT-4 和 Claude。這引發了有關隱私和安全風險的重大關注,因為需要分享個人 GUI 頁面,並且會消耗大量使用者端的流量,還有高昂的伺服器端集中服務成本,使得大規模部署 GUI 代理變得困難。

早期自動化行動任務的嘗試主要依賴於基於模板的方法,如 Siri、Google 助理和 Cortana,這些方法使用預定義的模板來處理使用者輸入。隨著技術進步,出現了更先進的基於 GUI 的自動化,能夠處理複雜任務,而不需要依賴第三方 API 或大量編程。雖然一些研究人員專注於通過針對 GUI 的訓練和探索性知識獲取來增強小型語言模型 (SLMs),但這些方法面臨重大限制。基於腳本的 GUI 代理尤其難以應對行動應用程式的動態特性,因為 UI 狀態和元素經常變化,這使得知識提取和腳本執行變得困難。

來自清華大學人工智慧產業研究所 (AIR) 的研究人員提出了 AutoDroid-V2,旨在研究如何基於 SLM 的編碼能力構建強大的 GUI 代理。與傳統的逐步 GUI 代理一次只做一個動作的決策不同,AutoDroid-V2 採用基於腳本的方法,根據使用者指令生成並執行多步驟腳本。此外,它解決了傳統方法的兩個關鍵限制:

  • 效率:代理可以根據使用者的任務生成一個腳本來完成一系列的 GUI 操作,顯著減少查詢頻率和消耗。
  • 能力:基於腳本的 GUI 代理依賴於 SLM 的編碼能力,這在許多現有的輕量級編碼助手研究中已被證明是有效的。

AutoDroid-V2 的架構分為兩個不同的階段:離線和在線處理。在離線階段,系統首先通過全面分析應用程式的探索歷史來構建應用文檔。這份文檔作為腳本生成的基礎,包含 AI 指導的 GUI 狀態壓縮、元素 XPath 自動生成和 GUI 依賴分析,以確保簡潔性和準確性。在在線階段,當使用者提交任務請求時,定制的本地 LLM 生成多步驟腳本,然後由專門設計的解釋器執行,以可靠和高效地處理運行時執行。

AutoDroid-V2 的性能在兩個基準上進行評估,測試了 23 款行動應用程式上的 226 個任務,與 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等領先基準進行比較。結果顯示顯著改善,任務完成率提高了 10.5%-51.7%,同時計算需求降低,輸入和輸出標記消耗分別減少了 43.5 倍和 5.8 倍,LLM 推理延遲比基準低 5.7-13.4 倍。跨不同 LLM (Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B) 測試,AutoDroid-V2 顯示出一致的性能,成功率範圍為 44.6% 到 54.4%,保持了 90.5% 到 93.0% 的穩定逆冗餘比。

總結來說,研究人員介紹了 AutoDroid-V2,這代表了行動任務自動化的一個重要進步,通過其創新的文檔指導、基於腳本的方法,利用設備上的 SLM。實驗結果顯示,這種基於腳本的方法顯著提高了 GUI 代理的效率和性能,達到了與雲端解決方案相當的準確性,同時保持了設備級的隱私和安全。儘管取得了這些成就,但該系統在處理缺乏結構化文本表示的 GUI 應用程式(如基於 Unity 和 Web 的應用程式)時仍面臨限制。然而,這一挑戰可以通過整合 VLM 來解決,以根據視覺特徵恢復結構化的 GUI 表示。

查看論文。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 60k+ ML SubReddit。

🚨 免費即將舉行的 AI 網路研討會 (2025 年 1 月 15 日):透過合成數據和評估智慧提升 LLM 準確性——加入這個研討會,獲取提升 LLM 模型性能和準確性的可行見解,同時保護數據隱私。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: AutoDroidV2利用小型語言模型進行自動化移動GUI控制
Previous Post

AI 驅動的信息提取與配對 | Umair Ali Khan 著 | 2025年1月

Next Post

圖結構學習框架 (GSLI):通過多尺度圖學習推進空間-時間數據插補

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
圖結構學習框架 (GSLI):通過多尺度圖學習推進空間-時間數據插補

圖結構學習框架 (GSLI):通過多尺度圖學習推進空間-時間數據插補

Meta AI 提出 LIGER:一種新穎的 AI 方法,協同結合密集檢索和生成檢索的優勢,以顯著提升生成檢索的性能

Meta AI 提出 LIGER:一種新穎的 AI 方法,協同結合密集檢索和生成檢索的優勢,以顯著提升生成檢索的性能

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。