雙子機器人將人工智慧帶入實體世界

研究

發布於 2025年3月12日
作者

卡羅琳娜·帕拉達 (Carolina Parada)

介紹Gemini機器人，我們基於Gemini 2.0設計的機器人模型

在Google DeepMind，我們在Gemini模型解決複雜問題的能力上取得了進展，這些能力可以跨越文本、圖像、音頻和視頻。不過，這些能力目前主要限於數位領域。為了讓人工智慧在現實世界中對人們有用並且能幫助他們，它必須展現出“具身”推理的能力——這是人類理解和反應周圍世界的能力，並且能安全地採取行動來完成任務。

今天，我們推出了兩個新的人工智慧模型，基於Gemini 2.0，為新一代有用的機器人奠定基礎。

第一個是Gemini機器人，這是一個先進的視覺-語言-行動 (VLA) 模型，基於Gemini 2.0，並新增了物理行動作為直接控制機器人的輸出方式。第二個是Gemini機器人-ER，這是一個具有先進空間理解能力的Gemini模型，使機器人技術專家能夠使用Gemini的具身推理 (ER) 能力來運行自己的程序。

這兩個模型使各種機器人能夠執行比以往更多的現實世界任務。作為我們努力的一部分，我們與Apptronik合作，建立下一代人形機器人，使用Gemini 2.0。我們也在與一些受信任的測試者合作，以指導Gemini機器人-ER的未來。

我們期待探索我們模型的能力，並繼續在實際應用的道路上發展它們。

Gemini機器人：我們最先進的視覺-語言-行動模型

為了對人們有用和幫助，機器人用的人工智慧模型需要具備三個主要特質：它們必須是通用的，意味著能夠適應不同的情況；它們必須是互動的，意味著能快速理解和回應指令或環境的變化；它們必須是靈巧的，意味著能夠像人類一樣用手和手指進行精細操作。

雖然我們之前的工作在這些領域上已經取得了一些進展，但Gemini機器人代表了在這三個方面性能的重大提升，使我們更接近真正的通用機器人。

通用性

Gemini機器人利用Gemini對世界的理解，能夠自動適應新情況，解決各種任務，包括在訓練中從未見過的任務。Gemini機器人也能夠處理新物體、多樣的指令和新的環境。在我們的技術報告中，我們顯示Gemini機器人在一個全面的通用性基準測試中，平均性能超過其他最先進的視覺-語言-行動模型的兩倍。

互動性

為了在我們動態的物理世界中運作，機器人必須能夠與人類和周圍環境無縫互動，並能隨時適應變化。

因為它是建立在Gemini 2.0的基礎上，Gemini機器人具有直觀的互動性。它利用Gemini的先進語言理解能力，可以理解和回應以日常對話語言和不同語言表達的指令。

它能理解和回應比我們之前的模型更廣泛的自然語言指令，並根據你的輸入調整行為。它還持續監控周圍環境，檢測環境或指令的變化，並相應地調整行動。這種控制或“可操控性”能更好地幫助人們在各種環境中與機器人助手合作，從家裡到工作場所。

靈巧性

建立有用機器人的第三個關鍵支柱是靈巧地行動。許多日常任務對人類來說輕而易舉，但卻需要非常精細的運動技能，對機器人來說仍然太困難。相比之下，Gemini機器人能夠處理極其複雜的多步任務，這些任務需要精確的操作，例如摺紙或將小吃放入Ziploc袋中。

多種實體

最後，由於機器人有各種形狀和大小，Gemini機器人也被設計為能夠輕鬆適應不同類型的機器人。我們主要在雙臂機器人平台ALOHA 2的數據上訓練了這個模型，但我們也展示了它可以控制基於Franka手臂的雙臂平台，這些手臂在許多學術實驗室中使用。Gemini機器人甚至可以專門用於更複雜的實體，例如由Apptronik開發的人形Apollo機器人，目的是完成現實世界的任務。

增強Gemini的世界理解

除了Gemini機器人，我們還推出了一個名為Gemini機器人-ER的先進視覺-語言模型（“具身推理”的縮寫）。這個模型增強了Gemini對世界的理解，特別是在空間推理方面，並允許機器人技術專家將其與現有的低層控制器連接。

Gemini機器人-ER在Gemini 2.0的現有能力上，如指向和3D檢測，提升了很大幅度。結合空間推理和Gemini的編碼能力，Gemini機器人-ER能夠即時創造全新的能力。例如，當看到一個咖啡杯時，模型能夠直覺出適合用兩根手指抓住把手的方式，以及安全的接近路徑。

Gemini機器人-ER可以執行控制機器人所需的所有步驟，包括感知、狀態估計、空間理解、計劃和代碼生成。在這種端到端的設置中，模型的成功率比Gemini 2.0高出2到3倍。而當代碼生成不夠時，Gemini機器人-ER甚至可以利用上下文學習的力量，根據少量人類示範的模式提供解決方案。

負責任地推進人工智慧和機器人技術

在我們探索人工智慧和機器人技術的潛力時，我們採取了一種分層的整體方法來解決我們研究中的安全性問題，從低層的運動控制到高層的語義理解。

機器人及其周圍人員的物理安全一直是機器人科學中的基本關注點。因此，機器人技術專家有經典的安全措施，例如避免碰撞、限制接觸力的大小，以及確保移動機器人的動態穩定性。Gemini機器人-ER可以與這些特定於每個實體的“低層”安全關鍵控制器進行接口。在Gemini的核心安全功能的基礎上，我們使Gemini機器人-ER模型能夠理解在特定情境下潛在行動是否安全，並生成適當的反應。

為了推進學術界和工業界的機器人安全研究，我們還發布了一個新的數據集，以評估和改善具身人工智慧和機器人的語義安全。在之前的工作中，我們展示了受艾薩克·阿西莫夫的三條機器人法則啟發的機器人憲法如何幫助引導大型語言模型選擇更安全的任務。此後，我們開發了一個框架，自動生成數據驅動的憲法——以自然語言直接表達的規則——以引導機器人的行為。這個框架允許人們創建、修改和應用憲法，以開發更安全且更符合人類價值觀的機器人。最後，新的ASIMOV數據集將幫助研究人員嚴格測量機器人行動在現實場景中的安全影響。

為了進一步評估我們工作的社會影響，我們與負責任的發展和創新團隊的專家合作，並與我們的責任和安全委員會進行協商，這是一個內部審查小組，致力於確保我們負責任地開發人工智慧應用。我們還就具身人工智慧在機器人應用中所帶來的特定挑戰和機會諮詢外部專家。

除了與Apptronik的合作，我們的Gemini機器人-ER模型也向包括敏捷機器人 (Agile Robots)、靈活機器人 (Agility Robots)、波士頓動力 (Boston Dynamics) 和魔法工具 (Enchanted Tools) 在內的受信任測試者提供。我們期待探索我們模型的能力，並繼續為下一代更有用的機器人發展人工智慧。