遮罩擴散(Masked diffusion)已成為自回歸模型(autoregressive models)在生成離散數據(discrete data)方面的一個有前景的替代方案。儘管它有潛力,但現有的研究受到過於複雜的模型公式和不同理論觀點之間模糊關係的限制。這些限制導致了不理想的參數化和訓練目標,通常需要臨時調整來解決固有的挑戰。自擴散模型(diffusion models)自誕生以來迅速發展,成為生成媒體的主流方法,並在各個領域中達到最先進的性能。特別是在圖像合成、音頻生成和視頻製作方面,顯示出這種創新建模技術的變革潛力。
來自谷歌深度學習(Google DeepMind)的研究人員專注於遮罩擴散,這是一種在離散狀態空間中引入的擴散框架,並從多個角度進行探索。通過採用連續時間的方法,這對於推進連續狀態空間擴散非常重要,這項研究旨在增強對離散數據生成模型的理解和性能。研究提出了幾個關鍵的技術貢獻,旨在簡化模型訓練並顯著提高性能。主要目標包括建立前向過程的穩健性質,開發簡化的證據下界(Evidence Lower Bound, ELBO)表達式,以及創建一個統一的理論框架,對現有的連續時間離散擴散模型進行關鍵檢視。
研究人員在有限的離散狀態空間中引入了一種獨特的遮罩擴散方法。通過用額外的遮罩狀態增強原始狀態空間,他們定義了一個前向“遮罩”過程,隨機時間將數據點轉換為遮罩狀態。離散時間框架將區間[0, 1]劃分為離散段,轉換矩陣控制狀態變化。每個轉換概率決定狀態是否保持不變或跳轉到遮罩狀態。通過取這一離散過程的極限,研究人員開發了一個連續時間的前向過程,使數據演變的建模更加精細。這種方法提供了一種靈活且數學上嚴謹的離散數據生成建模方法。
研究人員通過定義一個反向過程來開發生成模型,該過程大致逆轉前向轉換。他們引入了一種均值參數化方法,神經網絡預測原始數據點的概率分佈。該模型使用應用softmax的神經網絡生成概率向量,並有一個獨特的約束,即遮罩狀態不能被預測為乾淨數據。目標函數被推導為ELBO,提供了邊際對數似然的下界。通過取連續時間的極限,研究人員證明該目標可以表達為交叉熵損失的積分。重要的是,他們顯示該目標具有類似於連續狀態空間擴散模型的不變性質,信號與噪聲比在公式中扮演著關鍵角色。
研究人員探索了他們的離散時間反向過程的抽樣策略,專注於生成和條件生成技術。他們發現,祖先抽樣(ancestral sampling)相比於其他方法(如歐拉離散化)能夠產生稍高的樣本質量。對於條件生成任務,如填充,他們建議在整個生成過程中保持條件令牌不被遮罩。一個關鍵的發現是時間離散化對樣本質量的影響,特別是在使用不同的遮罩計劃時。通過從線性計劃轉換為餘弦計劃,他們在ImageNet 64×64上的Fréchet Inception Distance(FID)得分從70大幅降低到17,使用256步。研究人員假設,餘弦計劃的成功源於其利用信息冗餘的能力,使剩餘令牌更具可預測性,並在生成過程中減少了去遮罩衝突。
研究人員通過對文本和圖像建模進行全面實驗來驗證他們的遮罩擴散方法。在文本實驗中,研究人員使用了兩個數據集:text8(來自維基百科的字符級文本)和OpenWebText。他們引入了兩個模型變體:MD4(離散數據的遮罩離散擴散)和GenMD4(廣義狀態依賴模型)。在OpenWebText上,他們的GPT-2小型和中型模型在五個基準數據集上超越了以往的離散擴散模型,顯示出更優越的零樣本困惑度性能。這些模型在WikiText2、Penn Treebank和One Billion Words等任務上表現特別強勁,並且研究人員觀察到與以往方法相比,模型收斂速度更快,訓練更穩定。
總結來說,這項研究強調了研究人員提出的遮罩擴散方法的關鍵貢獻。他們通過開發靈活的連續時間公式,並提供一個非常簡單的證據下界表達式,來解決現有遮罩擴散模型中的複雜性和可及性挑戰。通過呈現交叉熵損失的加權積分,他們簡化了之前阻礙模型性能的優化過程。研究人員引入了兩個模型變體:MD4和GenMD4,後者提供了狀態依賴的遮罩計劃。他們的實驗結果顯示在不同領域的顯著改進。在文本數據上,MD4超越了現有的離散和連續擴散模型,而在像素級圖像建模中,該方法達到了與連續擴散模型相當的競爭性似然,並超越了相似大小的自回歸模型。廣義模型GenMD4進一步提高了似然性能,展示了狀態依賴擴散技術的潛力。
查看論文和GitHub頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。也別忘了加入我們的60k+機器學習SubReddit。
🚨 熱門消息:LG AI研究部門發布EXAONE 3.5:三個開源雙語前沿AI級模型,提供無與倫比的指令跟隨和長上下文理解,為生成AI卓越的全球領導力提供支持……
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!