自回歸模型 (Autoregressive models, AR) 改變了圖像生成的領域,為生產高品質視覺效果設定了新的標準。這些模型將圖像創建過程分解為一系列步驟,每個標記的生成都基於先前的標記,從而創造出具有卓越真實感和一致性的輸出。研究人員廣泛採用 AR 技術於計算機視覺、遊戲和數位內容創建等應用。然而,AR 模型的潛力常常受到其固有低效率的限制,特別是其緩慢的生成過程,這在即時應用中仍然是一個重大障礙。
在許多關注的問題中,AR 模型面臨的一個關鍵問題是速度。逐個標記的生成過程本質上是順序的,這意味著每個新標記必須等待其前一個標記完成。這種方法限制了擴展性,並在圖像生成任務中導致高延遲。例如,使用傳統的 AR 模型如 LlamaGen 生成一個 256×256 的圖像需要 256 步,這在現代 GPU 上大約需要五秒鐘。這樣的延遲妨礙了它們在需要即時結果的應用中的部署。此外,雖然 AR 模型在保持輸出質量方面表現出色,但它們在大規模實施中難以滿足對速度和質量日益增長的需求。
為了加速 AR 模型的生成,研究人員提出了各種方法,例如同時預測多個標記或在生成過程中採用遮罩策略。這些方法旨在減少所需的步驟,但通常會妥協生成圖像的質量。例如,在多標記生成技術中,對標記之間條件獨立性的假設會引入伪影,破壞輸出的連貫性。同樣,基於遮罩的方法通過訓練模型根據其他標記預測特定標記來實現更快的生成,但當生成步驟大幅減少時,其有效性會降低。這些限制突顯了需要一種新方法來提高 AR 模型的效率。
清華大學 (Tsinghua University) 和微軟研究院 (Microsoft Research) 的研究人員提出了一種解決這些挑戰的方法:蒸餾解碼 (Distilled Decoding, DD)。這種方法基於流匹配 (flow matching),這是一種確定性映射,將高斯噪聲連接到預訓練 AR 模型的輸出分佈。與傳統方法不同,DD 不需要訪問 AR 模型的原始訓練數據,使其在部署上更具實用性。研究表明,DD 可以將生成過程從數百步縮減到一到兩步,同時保持輸出的質量。例如,在 ImageNet-256 上,DD 為 VAR 模型實現了 6.3 倍的加速,對於 LlamaGen 則達到了驚人的 217.8 倍,將生成步驟從 256 減少到僅一步。
DD 的技術基礎是其能夠為標記生成創建確定性軌跡。通過流匹配,DD 將噪聲輸入映射到標記,以使其分佈與預訓練的 AR 模型對齊。在訓練過程中,這種映射被蒸餾成一個輕量級的網絡,能夠直接從噪聲輸入預測最終數據序列。這一過程確保了更快的生成,並通過在需要時允許中間步驟來提供在速度和質量之間的靈活平衡。與現有方法不同,DD 消除了速度和真實感之間的權衡,使其能夠在各種任務中實現可擴展的應用。
在實驗中,DD 顯示出其優於傳統方法的優勢。例如,使用 VAR-d16 模型,DD 實現了一步生成,FID 分數從 4.19 增加到 9.96,儘管速度提升了 6.3 倍,但質量損失最小。對於 LlamaGen 模型,步驟從 256 減少到 1,FID 分數為 11.35,而原始模型為 4.11,實現了 217.8 倍的速度提升。DD 在文本到圖像任務中也顯示出類似的效率,將生成步驟從 256 減少到 2,同時保持 FID 分數為 28.95,與 25.70 相比。這些結果強調了 DD 能夠在不顯著損失圖像質量的情況下大幅提高速度,這是基準方法無法比擬的成就。
從 DD 的研究中可以得出幾個關鍵要點:
- DD 將生成步驟減少了數個量級,實現了比傳統 AR 模型快 217.8 倍的生成速度。
- 儘管過程加速,DD 仍保持可接受的質量水平,FID 分數的增長保持在可控範圍內。
- DD 在不同的 AR 模型中表現一致,包括 VAR 和 LlamaGen,無論其標記序列定義或模型大小如何。
- 該方法允許用戶根據需求選擇一步、兩步或多步生成路徑,以平衡質量和速度。
- 該方法不需要原始 AR 模型的訓練數據,使其在缺乏此類數據的實際應用中變得可行。
- 由於其高效的蒸餾方法,DD 可能對其他領域產生影響,例如文本到圖像合成、語言建模和圖像生成。
總之,隨著蒸餾解碼的引入,研究人員成功解決了困擾 AR 生成過程的長期速度與質量的權衡問題,利用流匹配和確定性映射。該方法通過大幅減少步驟來加速圖像合成,並保持輸出的真實感和可擴展性。憑藉其強大的性能、適應性和實用的部署優勢,蒸餾解碼為 AR 模型的即時應用開啟了新的前沿,為生成建模的進一步創新奠定了基礎。
查看論文和 GitHub 頁面。所有對這項研究的讚譽都歸功於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 60k+ 人的機器學習 SubReddit。
🚨 熱門消息:LG AI 研究發布 EXAONE 3.5:三個開源雙語前沿 AI 模型提供無與倫比的指令跟隨和長上下文理解,為生成 AI 卓越的全球領導地位提供支持……。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!