星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

認識PC-Agent:一個層級多代理協作框架,用於PC上的複雜任務自動化

2025-03-16
in AI 綜合新聞
0 0
0
認識PC-Agent:一個層級多代理協作框架,用於PC上的複雜任務自動化
Share on FacebookShare on Twitter
Your Ad


多模態大型語言模型 (MLLMs) 在各個領域展現了驚人的能力,推動它們成為人類助手的多模態代理。與智能手機相比,電腦的圖形用戶界面 (GUI) 自動化代理面臨著特別艱巨的挑戰。電腦環境中的互動元素更為複雜,圖標和小工具密集且多樣,通常缺乏文字標籤,這使得識別變得困難。即使是像 Claude-3.5 這樣的先進模型,在 GUI 相關任務中的準確率也僅為 24.0%。此外,電腦的生產力任務涉及多個應用程序之間的複雜工作流程,操作序列長且子任務之間相互依賴,這導致 GPT-4o 的成功率從子任務層級的 41.8% 下降到完整指令的僅 8%。

之前的研究方法已經開發出不同的框架來應對電腦任務的複雜性。UFO 實施了一種雙代理架構,將應用程序選擇與具體控制互動分開。與此同時,AgentS 通過結合在線搜索和本地記憶來增強規劃能力。然而,這些方法在精細感知和操作螢幕文本方面存在重大限制,這對於像文檔編輯這樣的生產力場景來說是至關重要的。此外,它們通常無法解決子任務之間的複雜依賴關係,導致在處理日常電腦使用中所特有的現實內部和跨應用工作流程時表現不佳。

來自中國科學院自動化研究所 (MAIS)、中國科學院大學人工智慧學院、阿里巴巴集團、北京交通大學和上海科技大學資訊科學與技術學院的研究人員提出了 PC-Agent 框架,以通過三個創新設計來應對複雜的電腦場景。首先,主動感知模組通過提取互動元素的位置和意義來增強精細互動,利用可及性樹,並使用 MLLM 驅動的意圖理解和光學字符識別 (OCR) 來精確定位文本。其次,層次多代理協作實施了一個三層決策過程(指令-子任務-行動),其中管理代理將指令分解為參數化的子任務並管理依賴關係,進度代理跟踪操作歷史,而決策代理根據感知和進度信息執行步驟。第三,基於反思的動態決策引入了一個反思代理,評估執行的正確性並提供反饋,使得自上而下的任務分解能夠與自下而上的精確反饋在四個協作代理之間進行。

PC-Agent 的架構通過一種正式化的方法來解決 GUI 互動,其中代理 ρ 處理用戶指令 I、觀察 O 和歷史 H,以確定行動 A。主動感知模組使用 pywinauto 增強元素識別,提取互動元素的可及性樹,同時利用 MLLM 驅動的意圖理解和 OCR 來精確定位文本。對於複雜的工作流程,PC-Agent 在三個層級上實施層次多代理協作:管理代理將指令分解為參數化的子任務並管理依賴關係;進度代理跟踪子任務內的操作進度;決策代理根據環境感知和進度信息逐步執行行動。這種層次劃分有效地減少了決策的複雜性,通過將複雜任務分解為可管理的組件,並清晰地顯示相互依賴性。

實驗結果顯示,PC-Agent 的表現優於單一和多代理的替代方案。單一的 MLLM 基礎代理(GPT-4o、Gemini-2.0、Claude3.5、Qwen2.5-VL)在複雜指令上持續失敗,即使是表現最好的代理成功率也僅為 12%,這證實了單一代理方法在處理長操作序列和複雜依賴關係時的困難。像 UFO 和 AgentS 這樣的多代理框架顯示出適度的改進,但仍然受到感知不足和依賴管理問題的限制。它們在 Word 中進行文本編輯或在 Excel 中正確輸入數據等精細操作上表現不佳,並且經常無法利用先前子任務的信息。相比之下,PC-Agent 在成功率上顯著超越所有先前方法,通過其主動感知模組和層次多代理協作,超過 UFO 44% 和 AgentS 32%。

這項研究介紹了 PC-Agent 框架,這是一項在處理複雜電腦任務方面的重要進展,通過三個關鍵創新來實現。主動感知模組提供了精細的感知和操作能力,使得與 GUI 元素和文本的精確互動成為可能。層次多代理協作架構有效地在指令、子任務和行動層面上分解決策,而基於反思的動態決策則允許實時錯誤檢測和修正。通過新創建的 PC-Eval 基準進行驗證,該基準包含現實的複雜指令,確認了 PC-Agent 相較於先前方法的卓越表現,顯示其在應對電腦生產力場景中複雜工作流程和互動環境的有效性。

查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時關注我們的 Twitter,並別忘了加入我們的 80,000 多名機器學習 SubReddit。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 認識PCAgent一個層級多代理協作框架用於PC上的複雜任務自動化
Previous Post

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

Next Post

符號化-MOE:用於自適應實例級混合預訓練LLM專家的專家混合框架

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
符號化-MOE:用於自適應實例級混合預訓練LLM專家的專家混合框架

符號化-MOE:用於自適應實例級混合預訓練LLM專家的專家混合框架

探索刺繡設計以用於專案

探索刺繡設計以用於專案

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。