現代文字轉語音技術的分類
現代的文字轉語音解決方案通常可以分為兩大類:第一類是基於設備的統計參數語音合成 (SPSS) 或單元選擇 (USEL),第二類是雲端神經文字轉語音 (TTS)。SPSS 和 USEL 提供低延遲和小的儲存空間,但在自然度和音質上有所妥協。雲端神經 TTS 系統則提供更好的音質和自然度,但在延遲和反應速度上表現不佳,這使得它們在現實應用中不太實用。最近,神經 TTS 模型已經可以在手持設備上運行。然而,這些系統的延遲仍然高於 SPSS 和 USEL,而儲存空間的需求也使得無法同時預安裝多個聲音。
我們的解決方案
在這項研究中,我們描述了一個高品質且緊湊的神經 TTS 系統,能夠實現約 15 毫秒的延遲,並且佔用的儲存空間很小。這個解決方案可以在低功耗的設備上運行。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!