在過去的一年中,科技創新的速度加快,尤其是在人工智慧 (AI) 領域。而在2024年,成為NVIDIA研究 (NVIDIA Research) 的一部分,無疑是參與這些突破的最佳場所。
NVIDIA研究團隊由數百名非常聰明的人組成,他們不僅在AI方面推動知識的前沿,還在許多科技領域中不斷探索。
在過去的一年中,NVIDIA研究為未來GPU性能的提升奠定了基礎,並在電路、記憶體架構和稀疏運算方面取得了重大研究發現。團隊發明的新型圖形技術不斷提高即時渲染的標準。我們還開發了提高AI效率的新方法,這些方法需要更少的能量,使用更少的GPU周期,並提供更好的結果。
但今年最令人興奮的發展是在生成式AI方面。
我們現在不僅能生成圖像和文字,還能生成3D模型、音樂和聲音。我們也在開發對生成內容的更好控制:能夠生成真實的人類動作,並生成主題一致的圖像序列。
生成式AI在科學上的應用使得高解析度的天氣預報比傳統的數值天氣模型更準確。AI模型讓我們能夠準確預測血糖水平對不同食物的反應。具身生成式AI正被用來開發自動駕駛車輛和機器人。
而這只是今年的成果。接下來,我們將深入探討NVIDIA研究在2024年最偉大的生成式AI工作。當然,我們會繼續開發新的模型和方法,並期待明年會有更令人興奮的結果。
ConsiStory:具有主角能量的AI生成圖像
ConsiStory是NVIDIA和特拉維夫大學 (Tel Aviv University) 研究人員的合作,讓生成多張具有一致主角的圖像變得更容易,這對於講故事的用途,如插畫漫畫或開發故事板,都是一項重要能力。
研究人員的這種方法引入了一種稱為主題驅動共享注意力的技術,將生成一致圖像所需的時間從13分鐘縮短到約30秒。
閱讀ConsiStory論文。
Edify 3D:生成式AI進入新維度
NVIDIA Edify 3D是一個基礎模型,使開發者和內容創作者能夠快速生成可用於原型設計的3D物件,並填充虛擬世界。
Edify 3D幫助創作者快速構思、佈局和概念化沉浸式環境,並使用AI生成的資產。新手和經驗豐富的內容創作者可以使用文字和圖像提示來利用這個模型,這個模型現在是NVIDIA Edify多模態架構的一部分,用於開發視覺生成式AI。
閱讀Edify 3D論文並觀看YouTube上的視頻。
Fugatto:靈活的AI音效機器,適用於音樂、聲音等
NVIDIA研究團隊最近推出了Fugatto,這是一個基礎生成式AI模型,可以根據文字或音頻提示創建或轉換任何音樂、聲音和音效的混合。
例如,這個模型可以根據文字提示創建音樂片段,從現有歌曲中添加或刪除樂器,修改語音錄音中的口音或情感,或生成全新的聲音。音樂製作人、廣告公司、視頻遊戲開發者或語言學習工具的創作者都可以使用它。
閱讀Fugatto論文。
GluFormer:AI預測四年後的血糖水平
來自魏茨曼科學研究所 (Weizmann Institute of Science)、特拉維夫的初創公司Pheno.AI和NVIDIA的研究人員共同開發了GluFormer,這是一個能根據過去的血糖監測數據預測個體未來血糖水平和其他健康指標的AI模型。
研究人員顯示,在將飲食攝取數據添加到模型後,GluFormer還能預測一個人的血糖水平將如何對特定食物和飲食變化作出反應,從而實現精準營養。研究團隊在15個其他數據集上驗證了GluFormer,發現它能很好地推廣到預測其他群體的健康結果,包括前糖尿病、1型和2型糖尿病、妊娠糖尿病和肥胖。
閱讀GluFormer論文。
LATTE3D:實現近乎即時的生成,從文字到3D形狀
NVIDIA研究今年推出的另一個3D生成器是LATTE3D,它能在一秒內將文字提示轉換為3D表示,就像一台快速的虛擬3D打印機。生成的形狀採用流行的格式,適用於標準渲染應用,可以輕鬆地在虛擬環境中用於開發視頻遊戲、廣告活動、設計項目或機器人的虛擬訓練場。
閱讀LATTE3D論文。
MaskedMimic:重建人形機器人的真實運動
為了推進人形機器人的發展,NVIDIA研究人員推出了MaskedMimic,這是一個AI框架,將填補技術應用於運動描述中。
根據部分信息,例如運動的文字描述或來自虛擬現實頭盔的頭部和手部位置數據,MaskedMimic能夠填補空白,推斷全身運動。它已成為NVIDIA Project GR00T的一部分,這是一個加速人形機器人發展的研究計劃。
閱讀MaskedMimic論文。
StormCast:提升天氣預測和氣候模擬
在氣候科學領域,NVIDIA研究宣布了StormCast,這是一個生成式AI模型,用於模擬大氣動力學。其他基於全球數據訓練的機器學習模型的空間解析度約為30公里,時間解析度為六小時,而StormCast則達到了3公里的每小時解析度。
研究人員在約三年半的美國國家海洋和大氣管理局 (NOAA) 氣候數據上訓練StormCast。當與降水雷達一起使用時,StormCast提供的預測提前時間可達六小時,準確度比美國國家海洋和大氣管理局的最先進3公里區域天氣預測模型高出10%。
閱讀StormCast論文,該論文是與洛倫斯伯克利國家實驗室 (Lawrence Berkeley National Laboratory) 和華盛頓大學 (University of Washington) 的研究人員合作撰寫的。
NVIDIA研究在AI、自動駕駛、機器人技術上創下紀錄
到2024年,源於NVIDIA研究的模型在AI訓練和推理、路徑優化、自動駕駛等基準測試中創下了紀錄。
NVIDIA cuOpt是一個用於物流改進的優化AI微服務,擁有23項世界紀錄基準。NVIDIA Blackwell平台在AI訓練和推理的MLPerf行業基準測試中展示了世界級的性能。
在自動駕駛領域,NVIDIA研究的Hydra-MDP自動駕駛框架在2024年CVPR的自動駕駛挑戰賽中獲得了端到端自動駕駛的第一名。
在機器人技術方面,FoundationPose是一個統一的基礎模型,用於6D物體姿勢估計和跟踪,在未見物體的模型基礎姿勢估計的BOP排行榜上獲得第一名。
了解更多關於NVIDIA研究的資訊,該研究擁有數百名科學家和工程師。NVIDIA研究團隊專注於包括AI、計算機圖形學、計算機視覺、自動駕駛汽車和機器人技術等主題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!