從2D影像到3D形狀
創造真實的3D模型,用於虛擬實境、電影製作和工程設計等應用,通常是一個繁瑣的過程,需要很多手動的嘗試和錯誤。
雖然生成式人工智慧模型可以通過文字提示,幫助創作者快速產生栩栩如生的2D影像,但這些模型並不適合生成3D形狀。為了解決這個問題,最近開發了一種叫做「分數蒸餾」(Score Distillation)的技術,利用2D影像生成模型來創造3D形狀,但其產出的3D模型常常模糊或看起來像卡通。
麻省理工學院(MIT)的研究人員探討了生成2D影像和3D形狀的算法之間的關係和差異,找出了3D模型品質較低的根本原因。然後,他們對分數蒸餾進行了簡單的修正,使得生成的3D形狀更加清晰,質量接近最佳的2D影像。
更有效的解決方案
其他一些方法試圖通過重新訓練或微調生成式人工智慧模型來解決這個問題,但這樣做可能會非常昂貴且耗時。
相比之下,MIT研究人員的技術在3D形狀的品質上與這些方法相當,甚至更好,且不需要額外的訓練或複雜的後處理。
此外,通過找出問題的根本原因,研究人員對分數蒸餾及相關技術的數學理解有了提升,這將有助於未來的研究進一步改善性能。
「現在我們知道應該朝哪個方向前進,這讓我們能找到更有效的解決方案,速度更快且品質更高。」這是電機工程與計算機科學(EECS)研究生Artem Lukoianov的話,他是這項技術論文的主要作者。「從長遠來看,我們的工作可以幫助設計師更輕鬆地創造出更真實的3D形狀。」
Lukoianov的共同作者包括牛津大學的研究生Haitz Sáez de Ocáriz Borde、麻省理工學院-IBM沃森人工智慧實驗室的研究科學家Kristjan Greenewald、豐田研究所的科學家Vitor Campagnolo Guizilini、Meta的研究科學家Timur Bagautdinov,以及高級作者MIT EECS助理教授Vincent Sitzmann和EECS副教授Justin Solomon。這項研究將在神經信息處理系統會議上發表。
生成3D形狀的挑戰
擴散模型,例如DALL-E,是一種生成式人工智慧模型,可以從隨機噪音中產生栩栩如生的影像。為了訓練這些模型,研究人員會在影像中添加噪音,然後教模型反向過程,去除噪音。這些模型利用學到的「去噪」過程,根據用戶的文字提示來創造影像。
但是,擴散模型在直接生成真實的3D形狀方面表現不佳,因為沒有足夠的3D數據來訓練它們。為了解決這個問題,研究人員在2022年開發了一種叫做「分數蒸餾取樣」(Score Distillation Sampling, SDS)的技術,利用預訓練的擴散模型將2D影像結合成3D表示。
這項技術的過程是從隨機的3D表示開始,從隨機的相機角度渲染出所需物體的2D視圖,然後對該影像添加噪音,使用擴散模型進行去噪,接著優化隨機的3D表示,使其與去噪後的影像匹配。這些步驟會重複進行,直到生成所需的3D物體。
然而,這種方式產生的3D形狀往往看起來模糊或過於飽和。
「這一直是個瓶頸。我們知道基礎模型能做得更好,但人們不知道為什麼3D形狀會出現這種情況。」Lukoianov說。
尋找近似解
MIT的研究人員探討了SDS的步驟,找到了過程中一個關鍵公式與2D擴散模型之間的不匹配。這個公式告訴模型如何通過逐步添加和去除噪音來更新隨機表示,使其看起來更像所需的影像。
由於這個公式的一部分涉及到一個過於複雜的方程,無法有效解決,SDS在每一步用隨機抽樣的噪音來替代它。MIT研究人員發現,這種噪音會導致模糊或卡通風格的3D形狀。
研究人員沒有試圖精確解決這個繁瑣的公式,而是測試了近似技術,直到找到了最佳方案。他們的近似技術不是隨機抽樣噪音項,而是從當前的3D形狀渲染中推斷出缺失的項。
「這樣做後,正如論文中的分析所預測的,生成的3D形狀看起來清晰且真實。」他說。
此外,研究人員還提高了影像渲染的解析度,並調整了一些模型參數,以進一步提升3D形狀的質量。
最終,他們能夠使用一個現成的預訓練影像擴散模型,創造出平滑、看起來真實的3D形狀,而不需要昂貴的重新訓練。這些3D物體的清晰度與其他依賴臨時解決方案的方法相當。
「嘗試盲目地實驗不同的參數,有時有效,有時無效,但你不知道為什麼。我們知道這是我們需要解決的方程。現在,這讓我們能夠思考更有效的解決方案。」他說。
由於他們的方法依賴於預訓練的擴散模型,因此也繼承了該模型的偏見和缺陷,容易出現幻覺和其他失敗。改善基礎的擴散模型將提升他們的過程。
除了研究公式以尋找更有效的解決方案外,研究人員還希望探索這些見解如何改善影像編輯技術。
Artem Lukoianov的研究由豐田-麻省理工學院聯合研究中心資助。Vincent Sitzmann的研究得到了美國國家科學基金會、新加坡國防科學與技術局、內政部/內政業務中心和IBM的支持。Justin Solomon的研究部分由美國陸軍研究辦公室、國家科學基金會、CSAIL數據未來計畫、麻省理工學院-IBM沃森人工智慧實驗室、緯創資通和豐田-麻省理工學院聯合研究中心資助。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!