語音合成技術已經取得了顯著的進展,但在提供即時、自然的音頻方面仍然面臨挑戰。常見的障礙包括延遲、發音準確性和說話者一致性,這些問題在需要快速反應的串流應用中尤為重要。此外,處理複雜的語言輸入,例如繞口令或多音字,往往超出了現有模型的能力。為了解決這些問題,阿里巴巴 (Alibaba) 的研究人員推出了 CosyVoice 2,這是一個改進的串流語音合成模型,旨在有效解決這些挑戰。
介紹 CosyVoice 2
CosyVoice 2 在原始 CosyVoice 的基礎上進行了重大升級,提升了語音合成技術。這個增強模型專注於改進串流和離線應用,並加入了提高靈活性和精確性的功能,適用於各種使用情境,包括文字轉語音和互動語音系統。
CosyVoice 2 的主要進展包括:
- 統一的串流和非串流模式:能夠無縫適應各種應用而不影響性能。
- 增強的發音準確性:發音錯誤減少了 30%-50%,在複雜的語言情境中提高了清晰度。
- 改善的說話者一致性:確保在零樣本和跨語言合成任務中穩定的語音輸出。
- 先進的指令能力:通過自然語言指令提供對語調、風格和口音的精確控制。
創新與好處
CosyVoice 2 整合了多項技術進步,以提升其性能和可用性:
- 有限標量量化 (Finite Scalar Quantization, FSQ):取代傳統的向量量化,優化語音標記代碼庫的使用,提高語義表示和合成質量。
- 簡化的文本語音架構:利用預訓練的大型語言模型作為基礎,消除了對額外文本編碼器的需求,簡化模型並提升跨語言性能。
- 塊感知因果流匹配:這項創新將語義和聲學特徵對齊,延遲最小化,使模型適合即時語音生成。
- 擴展的指令數據集:擁有超過 1,500 小時的訓練數據,該模型能夠對口音、情感和語音風格進行細緻控制,實現多樣化和表現力豐富的語音生成。
性能洞察
對 CosyVoice 2 的廣泛評估突顯了其優勢:
- 低延遲和高效率:響應時間低至 150 毫秒,適合語音聊天等即時應用。
- 改善的發音:該模型在處理稀有和複雜的語言結構方面取得了顯著提升。
- 一致的說話者保真度:高說話者相似度分數顯示出保持自然性和一致性的能力。
- 多語言能力:在日語和韓語基準測試中表現良好,顯示出其穩健性,但在重疊字符集方面仍面臨挑戰。
- 在挑戰性情境中的韌性:CosyVoice 2 在處理像繞口令這樣的困難案例中表現出色,準確性和清晰度超過了之前的模型。
結論
CosyVoice 2 在其前身的基礎上進一步發展,針對延遲、準確性和說話者一致性等關鍵限制提出了可擴展的解決方案。整合了如 FSQ 和塊感知流匹配等先進功能,提供了性能和可用性的平衡。儘管仍有擴展語言支持和完善複雜情境的機會,但 CosyVoice 2 為語音合成的未來奠定了堅實的基礎。無論是離線還是串流模式,都確保了高品質的即時音頻生成,適用於多種應用。
查看論文、Hugging Face 頁面、預訓練模型和演示。所有研究的功勞歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。不要忘記加入我們的 60k+ 機器學習 SubReddit。
🚨 熱門消息:LG AI 研究推出 EXAONE 3.5:三個開源雙語前沿 AI 模型,提供無與倫比的指令跟隨和長上下文理解,推動生成 AI 卓越的全球領導地位……。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!