多模態大型語言模型 (MLLMs) 在各個領域展現了驚人的能力,推動它們成為人類助手的多模態代理。與智能手機相比,電腦的圖形用戶界面 (GUI) 自動化代理面臨著特別艱巨的挑戰。電腦環境中的互動元素更為複雜,圖標和小工具密集且多樣,通常缺乏文字標籤,這使得識別變得困難。即使是像 Claude-3.5 這樣的先進模型,在 GUI 相關任務中的準確率也僅為 24.0%。此外,電腦的生產力任務涉及多個應用程序之間的複雜工作流程,操作序列長且子任務之間相互依賴,這導致 GPT-4o 的成功率從子任務層級的 41.8% 下降到完整指令的僅 8%。
之前的研究方法已經開發出不同的框架來應對電腦任務的複雜性。UFO 實施了一種雙代理架構,將應用程序選擇與具體控制互動分開。與此同時,AgentS 通過結合在線搜索和本地記憶來增強規劃能力。然而,這些方法在精細感知和操作螢幕文本方面存在重大限制,這對於像文檔編輯這樣的生產力場景來說是至關重要的。此外,它們通常無法解決子任務之間的複雜依賴關係,導致在處理日常電腦使用中所特有的現實內部和跨應用工作流程時表現不佳。
來自中國科學院自動化研究所 (MAIS)、中國科學院大學人工智慧學院、阿里巴巴集團、北京交通大學和上海科技大學資訊科學與技術學院的研究人員提出了 PC-Agent 框架,以通過三個創新設計來應對複雜的電腦場景。首先,主動感知模組通過提取互動元素的位置和意義來增強精細互動,利用可及性樹,並使用 MLLM 驅動的意圖理解和光學字符識別 (OCR) 來精確定位文本。其次,層次多代理協作實施了一個三層決策過程(指令-子任務-行動),其中管理代理將指令分解為參數化的子任務並管理依賴關係,進度代理跟踪操作歷史,而決策代理根據感知和進度信息執行步驟。第三,基於反思的動態決策引入了一個反思代理,評估執行的正確性並提供反饋,使得自上而下的任務分解能夠與自下而上的精確反饋在四個協作代理之間進行。
PC-Agent 的架構通過一種正式化的方法來解決 GUI 互動,其中代理 ρ 處理用戶指令 I、觀察 O 和歷史 H,以確定行動 A。主動感知模組使用 pywinauto 增強元素識別,提取互動元素的可及性樹,同時利用 MLLM 驅動的意圖理解和 OCR 來精確定位文本。對於複雜的工作流程,PC-Agent 在三個層級上實施層次多代理協作:管理代理將指令分解為參數化的子任務並管理依賴關係;進度代理跟踪子任務內的操作進度;決策代理根據環境感知和進度信息逐步執行行動。這種層次劃分有效地減少了決策的複雜性,通過將複雜任務分解為可管理的組件,並清晰地顯示相互依賴性。
實驗結果顯示,PC-Agent 的表現優於單一和多代理的替代方案。單一的 MLLM 基礎代理(GPT-4o、Gemini-2.0、Claude3.5、Qwen2.5-VL)在複雜指令上持續失敗,即使是表現最好的代理成功率也僅為 12%,這證實了單一代理方法在處理長操作序列和複雜依賴關係時的困難。像 UFO 和 AgentS 這樣的多代理框架顯示出適度的改進,但仍然受到感知不足和依賴管理問題的限制。它們在 Word 中進行文本編輯或在 Excel 中正確輸入數據等精細操作上表現不佳,並且經常無法利用先前子任務的信息。相比之下,PC-Agent 在成功率上顯著超越所有先前方法,通過其主動感知模組和層次多代理協作,超過 UFO 44% 和 AgentS 32%。
這項研究介紹了 PC-Agent 框架,這是一項在處理複雜電腦任務方面的重要進展,通過三個關鍵創新來實現。主動感知模組提供了精細的感知和操作能力,使得與 GUI 元素和文本的精確互動成為可能。層次多代理協作架構有效地在指令、子任務和行動層面上分解決策,而基於反思的動態決策則允許實時錯誤檢測和修正。通過新創建的 PC-Eval 基準進行驗證,該基準包含現實的複雜指令,確認了 PC-Agent 相較於先前方法的卓越表現,顯示其在應對電腦生產力場景中複雜工作流程和互動環境的有效性。
查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時關注我們的 Twitter,並別忘了加入我們的 80,000 多名機器學習 SubReddit。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!