dMel: 語音標記化簡化版

大型語言模型如何改變語言處理

大型語言模型透過自我監督的預訓練，利用大量的文本數據，徹底改變了自然語言處理的方式。受到這一成功的啟發，研究人員開始探索複雜的語音標記方法，將連續的語音信號轉換成離散的標記，這樣就可以將語言建模技術應用於語音數據中。然而，現有的方法要麼專注於語義（內容）標記，可能會失去聲音的資訊；要麼專注於聲學標記，則有可能失去語義（內容）資訊。擁有多種標記類型也使得架構變得複雜，並需要額外的預訓練。

dMel的簡單表示法

我們展示了一種新的方法，將梅爾濾波器頻道離散化為離散的強度區間，這種表示法稱為dMel，並且它的表現優於其他現有的語音標記方法。我們使用一種LM風格的變壓器架構來進行語音與文本的建模，全面評估了不同的語音標記方法在語音識別（ASR）和語音合成（TTS）上的表現。我們的結果顯示，dMel在這兩個任務中都能在統一的框架內達到高效能，為語音和文本的有效聯合建模鋪平了道路。