介紹ImmerseDiffusion
我們介紹ImmerseDiffusion,這是一種端到端的生成音頻模型,可以根據聲音物體的空間、時間和環境條件,產生3D沉浸式音效。
什麼是ImmerseDiffusion?
ImmerseDiffusion被訓練來生成一種叫做第一階段環繞聲 (FOA) 的音頻,這是一種傳統的空間音頻格式,包含四個聲道,可以轉換成多聲道的空間輸出。
生成系統的組成
這個生成系統由一個空間音頻編解碼器組成,將FOA音頻映射到潛在組件。它還有一個潛在擴散模型,根據不同的用戶輸入類型進行訓練,包括文字提示、空間、時間和環境聲學參數。此外,還可以選擇使用一個空間音頻和文字編碼器,這個編碼器是以對比語言和音頻預訓練 (CLAP) 的方式進行訓練的。
評估生成音頻的質量
我們提出了一些指標來評估生成的空間音頻的質量和空間一致性。最後,我們評估模型在生成質量和空間符合性方面的表現,並比較兩種提出的模式:一種是「描述性」,使用空間文字提示;另一種是「參數性」,使用非空間文字提示和空間參數。我們的評估顯示出令人鼓舞的結果,這些結果與用戶的條件一致,並反映出可靠的空間真實感。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!