Visatronic：一種僅解碼的多模態語音合成模型

生成語音的新任務：從視頻和文字中學習

在這篇文章中，我們提出了一個新的任務——從人們的視頻和他們的文字稿中生成語音（VTTS）。這個任務不僅是從剪裁的嘴唇視頻生成語音的延伸，還比從視頻和文字生成一般音頻片段（例如狗叫聲）的任務更複雜。這個任務的多語言版本可能會促進跨語言配音的新技術。

我們還介紹了一個僅使用解碼器的多模態模型，稱為Visatronic。這個模型將視覺、文字和語音直接嵌入到變壓器模型的共同子空間中，並使用自回歸損失來學習基於說話者視頻和他們語音文字稿的離散梅爾頻譜圖的生成模型。通過將所有模態嵌入到共同的子空間中，Visatronic能夠比僅使用文字或視頻作為輸入的模型取得更好的結果。此外，這種方法比目前依賴嘴唇檢測器和複雜架構來融合模態的傳統方法更簡單，卻能產生更好的結果。

由於這個模型足夠靈活，可以適應不同的輸入順序，我們仔細探索了不同的策略，以更好地理解如何將信息傳遞到生成步驟中。為了促進對VTTS的進一步研究，我們將發布（i）我們的代碼，（ii）大型VoxCeleb2數據集的清晰文字稿，以及（iii）一個標準化的VTTS評估協議，包含客觀和主觀的評量指標。

圖1：除了現有的文字轉語音（左上）和嘴唇轉語音任務（右上），我們提出了一個新穎的多模態生成任務（下方），視頻-文字-語音（VTTS），該模型基於講話者的視頻和相應的文字稿生成語音。此外，我們提出了一個統一的多模態解碼器架構Visatronic，該架構在所有模態（視頻（灰色）、文字（灰色）和語音（藍色））被離散化後，在LM風格的變壓器模型中處理所有模態。該模型使用交叉熵損失進行訓練，該損失是基於給定混合多模態輸入序列的語音離散值計算的。每個輸入模態都在統一框架中處理，使模型能夠在學習時間對齊的同時學習不同模態之間的交互。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: Visatronic一種僅解碼的多模態語音合成模型