語音基礎模型的介紹
語音基礎模型,例如 HuBERT 和它的變體,會在大量未標記的語音數據上進行預訓練,然後用於各種後續任務。這些模型使用一種叫做「遮罩預測目標」的方法,模型會學習從未遮罩的上下文中預測遮罩輸入片段的資訊。
預測目標的選擇
在這個框架中,預測目標的選擇會影響模型在後續任務上的表現。例如,使用能捕捉語調的預測目標進行預訓練的模型,會學習到適合與說話者相關的任務的表示;而使用能捕捉語音學的預測目標進行預訓練的模型,則會學習到適合與內容相關的任務的表示。
預測目標的細節程度
此外,預測目標在捕捉細節的程度上也可能有所不同。使用能編碼細微聲學特徵的預測目標進行預訓練的模型,在去噪等任務上表現更好,而使用專注於更高層次抽象的預測目標進行預訓練的模型,則在與內容相關的任務上更有效。
設計選擇的重要性
儘管預測目標很重要,但影響它們的設計選擇尚未被徹底研究。本研究探討了這些設計選擇及其對後續任務表現的影響。我們的結果顯示,對 HuBERT 常用的設計選擇可能並不是最佳的。我們提出了創造更具資訊性的預測目標的方法,並通過在各種後續任務上的改進來證明它們的有效性。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!