星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

Visatronic:一種僅解碼的多模態語音合成模型

2025-03-13
in 機器學習與應用
0 0
0
Visatronic:一種僅解碼的多模態語音合成模型
Share on FacebookShare on Twitter
Your Ad


生成語音的新任務:從視頻和文字中學習

在這篇文章中,我們提出了一個新的任務——從人們的視頻和他們的文字稿中生成語音(VTTS)。這個任務不僅是從剪裁的嘴唇視頻生成語音的延伸,還比從視頻和文字生成一般音頻片段(例如狗叫聲)的任務更複雜。這個任務的多語言版本可能會促進跨語言配音的新技術。

我們還介紹了一個僅使用解碼器的多模態模型,稱為Visatronic。這個模型將視覺、文字和語音直接嵌入到變壓器模型的共同子空間中,並使用自回歸損失來學習基於說話者視頻和他們語音文字稿的離散梅爾頻譜圖的生成模型。通過將所有模態嵌入到共同的子空間中,Visatronic能夠比僅使用文字或視頻作為輸入的模型取得更好的結果。此外,這種方法比目前依賴嘴唇檢測器和複雜架構來融合模態的傳統方法更簡單,卻能產生更好的結果。

由於這個模型足夠靈活,可以適應不同的輸入順序,我們仔細探索了不同的策略,以更好地理解如何將信息傳遞到生成步驟中。為了促進對VTTS的進一步研究,我們將發布(i)我們的代碼,(ii)大型VoxCeleb2數據集的清晰文字稿,以及(iii)一個標準化的VTTS評估協議,包含客觀和主觀的評量指標。

圖1:除了現有的文字轉語音(左上)和嘴唇轉語音任務(右上),我們提出了一個新穎的多模態生成任務(下方),視頻-文字-語音(VTTS),該模型基於講話者的視頻和相應的文字稿生成語音。此外,我們提出了一個統一的多模態解碼器架構Visatronic,該架構在所有模態(視頻(灰色)、文字(灰色)和語音(藍色))被離散化後,在LM風格的變壓器模型中處理所有模態。該模型使用交叉熵損失進行訓練,該損失是基於給定混合多模態輸入序列的語音離散值計算的。每個輸入模態都在統一框架中處理,使模型能夠在學習時間對齊的同時學習不同模態之間的交互。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: Visatronic一種僅解碼的多模態語音合成模型
Previous Post

靈巧科技獲得9500萬美元資金用於集裝箱卸貨機器人

Next Post

從稀疏獎勵到精確掌握:DEMO3 如何革新機器人操作

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
從稀疏獎勵到精確掌握:DEMO3 如何革新機器人操作

從稀疏獎勵到精確掌握:DEMO3 如何革新機器人操作

自動化、遠程及安全的機場評估 | MIT新聞

自動化、遠程及安全的機場評估 | MIT新聞

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。