生成語音的新任務:從視頻和文字中學習
在這篇文章中,我們提出了一個新的任務——從人們的視頻和他們的文字稿中生成語音(VTTS)。這個任務不僅是從剪裁的嘴唇視頻生成語音的延伸,還比從視頻和文字生成一般音頻片段(例如狗叫聲)的任務更複雜。這個任務的多語言版本可能會促進跨語言配音的新技術。
我們還介紹了一個僅使用解碼器的多模態模型,稱為Visatronic。這個模型將視覺、文字和語音直接嵌入到變壓器模型的共同子空間中,並使用自回歸損失來學習基於說話者視頻和他們語音文字稿的離散梅爾頻譜圖的生成模型。通過將所有模態嵌入到共同的子空間中,Visatronic能夠比僅使用文字或視頻作為輸入的模型取得更好的結果。此外,這種方法比目前依賴嘴唇檢測器和複雜架構來融合模態的傳統方法更簡單,卻能產生更好的結果。
由於這個模型足夠靈活,可以適應不同的輸入順序,我們仔細探索了不同的策略,以更好地理解如何將信息傳遞到生成步驟中。為了促進對VTTS的進一步研究,我們將發布(i)我們的代碼,(ii)大型VoxCeleb2數據集的清晰文字稿,以及(iii)一個標準化的VTTS評估協議,包含客觀和主觀的評量指標。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!