沉浸擴散：一種生成式空間音頻潛在擴散模型

介紹ImmerseDiffusion

我們介紹ImmerseDiffusion，這是一種端到端的生成音頻模型，可以根據聲音物體的空間、時間和環境條件，產生3D沉浸式音效。

什麼是ImmerseDiffusion？

ImmerseDiffusion被訓練來生成一種叫做第一階段環繞聲 (FOA) 的音頻，這是一種傳統的空間音頻格式，包含四個聲道，可以轉換成多聲道的空間輸出。

生成系統的組成

這個生成系統由一個空間音頻編解碼器組成，將FOA音頻映射到潛在組件。它還有一個潛在擴散模型，根據不同的用戶輸入類型進行訓練，包括文字提示、空間、時間和環境聲學參數。此外，還可以選擇使用一個空間音頻和文字編碼器，這個編碼器是以對比語言和音頻預訓練 (CLAP) 的方式進行訓練的。

評估生成音頻的質量

我們提出了一些指標來評估生成的空間音頻的質量和空間一致性。最後，我們評估模型在生成質量和空間符合性方面的表現，並比較兩種提出的模式：一種是「描述性」，使用空間文字提示；另一種是「參數性」，使用非空間文字提示和空間參數。我們的評估顯示出令人鼓舞的結果，這些結果與用戶的條件一致，並反映出可靠的空間真實感。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 沉浸擴散一種生成式空間音頻潛在擴散模型