阿里巴巴人工智慧研究院發布 CosyVoice 2：改進的串流語音合成模型

語音合成技術已經取得了顯著的進展，但在提供即時、自然的音頻方面仍然面臨挑戰。常見的障礙包括延遲、發音準確性和說話者一致性，這些問題在需要快速反應的串流應用中尤為重要。此外，處理複雜的語言輸入，例如繞口令或多音字，往往超出了現有模型的能力。為了解決這些問題，阿里巴巴 (Alibaba) 的研究人員推出了 CosyVoice 2，這是一個改進的串流語音合成模型，旨在有效解決這些挑戰。

介紹 CosyVoice 2

CosyVoice 2 在原始 CosyVoice 的基礎上進行了重大升級，提升了語音合成技術。這個增強模型專注於改進串流和離線應用，並加入了提高靈活性和精確性的功能，適用於各種使用情境，包括文字轉語音和互動語音系統。

CosyVoice 2 的主要進展包括：

統一的串流和非串流模式：能夠無縫適應各種應用而不影響性能。

增強的發音準確性：發音錯誤減少了 30%-50%，在複雜的語言情境中提高了清晰度。

改善的說話者一致性：確保在零樣本和跨語言合成任務中穩定的語音輸出。

先進的指令能力：通過自然語言指令提供對語調、風格和口音的精確控制。

創新與好處

CosyVoice 2 整合了多項技術進步，以提升其性能和可用性：

有限標量量化 (Finite Scalar Quantization, FSQ)：取代傳統的向量量化，優化語音標記代碼庫的使用，提高語義表示和合成質量。

簡化的文本語音架構：利用預訓練的大型語言模型作為基礎，消除了對額外文本編碼器的需求，簡化模型並提升跨語言性能。

塊感知因果流匹配：這項創新將語義和聲學特徵對齊，延遲最小化，使模型適合即時語音生成。

擴展的指令數據集：擁有超過 1,500 小時的訓練數據，該模型能夠對口音、情感和語音風格進行細緻控制，實現多樣化和表現力豐富的語音生成。

性能洞察

對 CosyVoice 2 的廣泛評估突顯了其優勢：

低延遲和高效率：響應時間低至 150 毫秒，適合語音聊天等即時應用。

改善的發音：該模型在處理稀有和複雜的語言結構方面取得了顯著提升。

一致的說話者保真度：高說話者相似度分數顯示出保持自然性和一致性的能力。

多語言能力：在日語和韓語基準測試中表現良好，顯示出其穩健性，但在重疊字符集方面仍面臨挑戰。

在挑戰性情境中的韌性：CosyVoice 2 在處理像繞口令這樣的困難案例中表現出色，準確性和清晰度超過了之前的模型。

結論

CosyVoice 2 在其前身的基礎上進一步發展，針對延遲、準確性和說話者一致性等關鍵限制提出了可擴展的解決方案。整合了如 FSQ 和塊感知流匹配等先進功能，提供了性能和可用性的平衡。儘管仍有擴展語言支持和完善複雜情境的機會，但 CosyVoice 2 為語音合成的未來奠定了堅實的基礎。無論是離線還是串流模式，都確保了高品質的即時音頻生成，適用於多種應用。

查看論文、Hugging Face 頁面、預訓練模型和演示。所有研究的功勞歸於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。不要忘記加入我們的 60k+ 機器學習 SubReddit。

🚨 熱門消息：LG AI 研究推出 EXAONE 3.5：三個開源雙語前沿 AI 模型，提供無與倫比的指令跟隨和長上下文理解，推動生成 AI 卓越的全球領導地位……。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！