研究
發布於
2024年12月5日
推進自適應AI代理,強化3D場景創建,創新LLM訓練,為更智慧、更安全的未來鋪路
下週,全球的AI研究人員將聚集在第38屆神經信息處理系統年會(NeurIPS),會議將於12月10日至15日在溫哥華舉行。
兩篇由Google DeepMind研究人員主導的論文將獲得「時間考驗獎」,因為它們對這個領域有著「不可否認的影響」。Ilya Sutskever將介紹與Google DeepMind的Drastic Research副總裁Oriol Vinyals和傑出科學家Quoc V. Le共同撰寫的《序列到序列學習與神經網絡》。Google研究科學家David Warde和Google DeepMind研究科學家Ian Goodfellow將介紹生成對抗網絡。
我們還將展示如何將基礎研究轉化為實際應用,並進行現場演示,包括Gemma Scope、音樂生成AI、天氣預報等。
Google DeepMind的團隊將展示超過100篇新論文,涵蓋從AI代理和生成媒體到創新學習方法的各種主題。
建立自適應、智慧且安全的AI代理
基於LLM的AI代理在通過自然語言命令執行數位任務方面顯示出潛力。然而,它們的成功依賴於與複雜用戶界面的精確互動,這需要大量的訓練數據。透過AndroidControl,我們分享了迄今為止最具多樣性的控制數據集,包含超過15,000個人類收集的示範,涵蓋超過800個應用程式。使用這個數據集訓練的AI代理顯示出顯著的性能提升,我們希望這能推進對更通用AI代理的研究。
為了讓AI代理能夠在不同任務中通用,它們需要從每一次經驗中學習。我們提出了一種上下文抽象學習的方法,幫助代理從不完美的示範和自然語言反饋中掌握關鍵任務模式和關係,提升它們的性能和適應性。
一段視頻演示的畫面,顯示某人製作醬汁,並標識和編號各個元素。ICAL能夠提取過程中的重要方面。
開發能夠實現用戶目標的代理AI可以使技術更有用,但在開發代表我們行動的AI時,對齊是至關重要的。為此,我們提出了一種理論方法來衡量AI系統的目標導向性,並展示模型對用戶的感知如何影響其安全過濾器。這些見解強調了強大保障措施的重要性,以防止意外或不安全的行為,確保AI代理的行動與安全的預期用途保持一致。
推進3D場景創建和模擬
隨著遊戲和視覺特效等行業對高品質3D內容的需求增長,創建逼真的3D場景仍然成本高昂且耗時。我們最近的工作介紹了新穎的3D生成、模擬和控制方法,簡化了內容創建,實現更快、更靈活的工作流程。
生產高品質、真實的3D資產和場景通常需要捕捉和建模數千張2D照片。我們展示了CAT3D,一個可以在短短一分鐘內從任意數量的圖像(甚至只是一張圖像或一個文本提示)創建3D內容的系統。CAT3D通過多視角擴散模型生成來自不同視角的一致2D圖像,並使用這些生成的圖像作為傳統3D建模技術的輸入。結果在速度和質量上超越了以往的方法。
CAT3D能夠從任意數量的生成或真實圖像中創建3D場景。
從左到右:文本到圖像到3D,真實照片到3D,幾張照片到3D。
模擬許多剛性物體的場景,如雜亂的桌面或翻滾的樂高積木,仍然需要大量計算資源。為了解決這一障礙,我們提出了一種新技術,稱為SDF-Sim,該技術以可擴展的方式表示物體形狀,加快碰撞檢測並實現大型複雜場景的高效模擬。
數百個物體掉落和碰撞的複雜模擬,準確地使用SDF-Sim建模。
基於擴散模型的AI圖像生成器在控制多個物體的3D位置和方向方面面臨挑戰。我們的解決方案Neural Assets引入了物體特定的表示,捕捉外觀和3D姿勢,這些表示是通過對動態視頻數據進行訓練學習的。Neural Assets使用戶能夠在場景之間移動、旋轉或交換物體,這對於動畫、遊戲和虛擬現實非常有用。
給定一個源圖像和物體的3D邊界框,我們可以平移、旋轉和重新縮放物體,或在圖像之間轉移物體或背景。
改善LLM的學習和回應方式
我們也在推進LLM的訓練、學習和對用戶的回應,提升性能和效率。
隨著上下文窗口的增大,LLM現在可以一次學習數千個例子,這被稱為多次上下文學習(ICL)。這個過程提升了模型在數學、翻譯和推理等任務上的表現,但通常需要高品質的人類生成數據。為了使訓練更具成本效益,我們探索了適應多次ICL的方法,以減少對手動整理數據的依賴。對於構建語言模型的團隊來說,主要的限制變成了可用的計算資源。我們解決了一個重要問題:在固定的計算預算下,如何選擇合適的模型大小以獲得最佳結果?
另一種創新方法,我們稱之為時間反向語言模型(TRLM),探索了預訓練和微調LLM以反向運作。當給定傳統LLM的回應作為輸入時,TRLM生成可能產生這些回應的查詢。當與傳統LLM配對時,這種方法不僅有助於確保回應更好地遵循用戶指示,還改善了對摘要文本的引用生成,並增強了對有害內容的安全過濾器。
整理高品質數據對於訓練大型AI模型至關重要,但手動整理在規模上是困難的。為了解決這個問題,我們的聯合範例選擇(JEST)算法通過識別更大批次中最可學習的數據來優化訓練,使訓練輪次減少最多13倍,計算量減少10倍,超越了最先進的多模態預訓練基準。
規劃任務是AI面臨的另一個挑戰,特別是在隨機環境中,結果受到隨機性或不確定性的影響。研究人員使用各種推理類型進行規劃,但沒有一致的方法。我們展示了規劃本身可以被視為一種獨特的概率推理,並提出了一個框架來根據其規劃效果對不同推理技術進行排名。
團結全球AI社群
我們很自豪成為此次會議的鑽石贊助商,並支持女性機器學習、拉丁裔AI和黑人AI等組織,在全球範圍內建立AI、機器學習和數據科學的社群。
如果你今年參加NeurIPS,歡迎來到Google DeepMind和Google Research的展位,探索會議期間的前沿研究、演示、工作坊等。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!