這篇AI論文介紹了BD3-LMs：一種結合自回歸模型和擴散模型的混合方法，用於可擴展和高效的文本生成

語言模型的進步

傳統的語言模型使用自回歸的方法，這種方法是逐步生成文字，雖然能產生高品質的內容，但速度較慢。相對來說，擴散模型最初是為了生成圖片和影片而開發的，現在在文本生成方面也受到關注，因為它們可以平行生成和更好地控制內容。然而，現有的擴散模型在生成固定長度文本時遇到困難，這限制了它們在生成可變長度文本方面的效果。

語言建模的挑戰

在語言建模中，一個主要挑戰是平衡效率和質量。自回歸模型能有效捕捉長距離的依賴關係，但逐個生成的過程速度較慢。雖然擴散模型有潛力，但通常需要多次推理步驟，並且生成的內容長度固定。這使得它們在需要可變長度序列的實際應用中不太實用。研究者們提出了一種方法，結合了自回歸和擴散模型的優勢，確保高效且高品質的文本生成，同時不妨礙靈活性。

BD3-LMs的介紹

康奈爾科技 (Cornell Tech) 和史丹佛大學 (Stanford University) 的研究人員推出了**區塊離散去噪擴散語言模型 (Block Discrete Denoising Diffusion Language Models, BD3-LMs)**，以克服這些限制。這種新型模型在自回歸和擴散模型之間進行插值，採用結構化的方法來支持可變長度的生成，同時保持推理效率。BD3-LMs利用關鍵值緩存和平行令牌抽樣來減少計算負擔。該模型設計了專門的訓練算法，通過定制的噪聲計劃來最小化梯度變異，優化在不同語言建模基準上的表現。

BD3-LMs的運作方式

BD3-LMs的運作方式是將文本生成結構化為區塊，而不是單獨的令牌。與傳統的自回歸模型逐個預測下一個令牌不同，BD3-LMs可以同時生成一個令牌區塊，顯著提高效率。每個區塊內的擴散去噪過程確保生成高品質的文本，同時保持連貫性。模型架構結合了變壓器 (transformers) 和區塊因果注意機制，讓每個區塊可以根據之前生成的區塊進行調整。這種方法增強了上下文的相關性和流暢性。訓練過程中包括了一種向量化的實現，能夠進行平行計算，減少訓練時間和資源消耗。研究者們引入了數據驅動的噪聲計劃，以穩定訓練並改善梯度估計，解決擴散模型中的高變異問題。

BD3-LMs的表現評估

BD3-LMs的性能評估顯示出相較於現有的離散擴散模型有顯著的改善。該模型在擴散基礎的語言模型中達到了最先進的困惑度分數，並能夠生成任意長度的序列。在語言建模基準的實驗中，BD3-LMs的困惑度比之前的擴散模型降低了最多13%。在LM1B數據集上，BD3-LMs在使用四個區塊大小時達到了28.23的困惑度，超越了之前的模型如MDLM，其困惑度為31.78。在OpenWebText上，BD3-LMs的困惑度為20.73，顯著優於其他離散擴散模型。此外，BD3-LMs生成的序列長度是傳統擴散方法的10倍，顯示出更好的可擴展性。該模型還減少了推理所需的函數評估次數，提高了樣本效率和生成速度。

結論

BD3-LMs的推出在語言建模方面是一個重要的進步，通過整合自回歸和擴散基礎的方法，解決了推理效率、可能性估計和序列靈活性等關鍵挑戰，提供了一個實用且可擴展的文本生成解決方案。BD3-LMs改善了訓練穩定性和計算效率，提供了一個可以擴展到未來語言建模發展的框架。結果顯示BD3-LMs在自回歸和擴散基礎方法之間架起了橋樑，提供了文本生成中質量和速度之間的最佳平衡。

查看論文、項目和GitHub頁面。所有的研究成果都歸功於這個項目的研究人員。也歡迎在Twitter上關注我們，別忘了加入我們的80k+機器學習SubReddit。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 這篇AI論文介紹了BD3LMs一種結合自回歸模型和擴散模型的混合方法用於可擴展和高效的文本生成