星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

認識 GRAPE:一種即插即用的算法,通過偏好對齊來概括機器人策略

2024-12-08
in 機器學習與應用
0 0
0
認識 GRAPE:一種即插即用的算法,通過偏好對齊來概括機器人策略
Share on FacebookShare on Twitter
Your Ad


機器人操作領域因為出現了視覺-語言-行動 (VLA) 模型而發生了顯著變化。這些先進的計算框架在執行複雜的操作任務方面展現了很大的潛力,並且可以在不同的環境中運作。儘管它們的能力令人印象深刻,VLA 模型在面對新的情境時仍然遇到不少挑戰,包括不同的物體、環境和語意情境。

目前的訓練方法,特別是監督式微調 (SFT),是這些模型的基本限制。這種方法主要依賴行為模仿,透過成功的行動回放來訓練模型。這樣的方式限制了模型對任務目標和潛在失敗機制的全面理解。因此,這些模型常常難以適應細微的變化和意外情況,顯示出需要更複雜的訓練策略。

過去的機器人學習研究主要使用分層規劃策略,例如 Code as Policies 和 EmbodiedGPT,這些模型利用大型語言模型和視覺-語言模型來生成高層次的行動計劃。這些方法通常使用大型語言模型來創建行動序列,然後由低層控制器解決局部軌跡挑戰。然而,這些方法在技能適應性和日常機器人操作任務的泛化能力上顯示出顯著的限制。

VLA 模型在行動規劃上採取了兩種主要方法:行動空間離散化和擴散模型。離散化方法,例如 OpenVLA,涉及將行動空間均勻地切割成離散的標記,同時保持自回歸語言解碼目標。擴散模型則是通過多次去噪步驟來生成行動序列,而不是產生單一的逐步行動。儘管這些結構上有所不同,這些模型仍然依賴於使用成功的行動回放進行監督式訓練,這根本限制了它們在新操作情境中的泛化能力。

來自北卡羅來納大學教堂山分校 (UNC Chapel-Hill)、華盛頓大學 (University of Washington) 和芝加哥大學 (University of Chicago) 的研究人員提出了 GRAPE (通過偏好對齊來泛化機器人政策),這是一種創新的方法,旨在解決 VLA 模型訓練中的基本限制。GRAPE 提供了一種強大的軌跡偏好優化 (TPO) 技術,通過隱式建模來自成功和不成功試驗序列的獎勵,來戰略性地對齊機器人政策。這種方法使得在多樣的操作任務中增強了泛化能力,超越了傳統的訓練限制。

GRAPE 方法的核心是一種複雜的分解策略,將複雜的操作任務分解為多個獨立的階段。這種方法提供了前所未有的靈活性,利用大型視覺模型為每個階段提出關鍵點,並將其與空間-時間約束相關聯。這些可自定義的約束允許與不同的操作目標對齊,包括任務完成、機器人互動安全性和運營成本效率,這標誌著機器人政策發展的一個重大進步。

研究團隊在模擬和現實世界的機器人環境中對 GRAPE 進行了全面評估,以驗證其性能和泛化能力。在 Simpler-Env 和 LIBERO 等模擬環境中,GRAPE 展現了卓越的能力,顯著超越了現有的模型 Octo-SFT 和 OpenVLA-SFT。具體來說,在 Simpler-Env 中,GRAPE 的表現比之前的模型平均提高了 24.48% 和 13.57%,涵蓋了主題、物理和語意等多個泛化方面。

現實世界的實驗結果進一步證實了 GRAPE 的有效性,該模型在多樣的任務情境中展現了卓越的適應能力。在特定領域的任務中,GRAPE 的成功率達到了 67.5%,比 OpenVLA-SFT 提高了 22.5%,並且大幅超越了 Octo-SFT。特別令人印象深刻的是 GRAPE 在挑戰性的泛化任務中的表現,在視覺、行動和語言基礎情境中保持了優越的結果,總平均成功率達到了 52.3%——比現有方法提高了 19%。

這項研究介紹了 GRAPE 作為解決 VLA 模型面臨的關鍵挑戰的變革性解決方案,特別是在操作任務中的有限泛化能力和適應能力。通過實施一種新穎的軌跡級政策對齊方法,GRAPE 展示了從成功和不成功的試驗序列中學習的卓越能力。這種方法在將機器人政策與多樣的目標對齊方面提供了前所未有的靈活性,包括安全性、效率和任務完成,並通過創新的空間時間約束機制實現。實驗結果驗證了 GRAPE 的顯著進步,展示了在特定領域和未見任務環境中的性能大幅提升。

查看論文和 GitHub 頁面。這項研究的所有功勞都歸功於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。如果你喜歡我們的工作,你一定會喜歡我們的電子報。別忘了加入我們的 60k+ ML SubReddit。

🚨 [必參加的網路研討會]:‘將概念驗證轉化為生產就緒的 AI 應用和代理’(推廣)



新聞來源

本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!

Tags: GRAPE一種即插即用的算法通過偏好對齊來概括機器人策略認識
Previous Post

非同步私有聯邦學習中的動量近似

Next Post

對大型語言模型的適應性攻擊:來自人工智慧穩健性測試前線的教訓

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
對大型語言模型的適應性攻擊:來自人工智慧穩健性測試前線的教訓

對大型語言模型的適應性攻擊:來自人工智慧穩健性測試前線的教訓

會議數據實驗室:一個統一的商業智能平台,利用基於大型語言模型的代理和計算筆記本

會議數據實驗室:一個統一的商業智能平台,利用基於大型語言模型的代理和計算筆記本

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。