探索語音基礎模型中遮蔽預訓練的預測目標

語音基礎模型，例如 HuBERT 和它的變體，會在大量未標記的語音數據上進行預訓練，然後用於各種後續任務。這些模型使用一種叫做「遮罩預測目標」的方法，模型會學習從未遮罩的上下文中預測遮罩輸入片段的資訊。

在這個框架中，預測目標的選擇會影響模型在後續任務上的表現。例如，使用能捕捉語調的預測目標進行預訓練的模型，會學習到適合與說話者相關的任務的表示；而使用能捕捉語音學的預測目標進行預訓練的模型，則會學習到適合與內容相關的任務的表示。

此外，預測目標在捕捉細節的程度上也可能有所不同。使用能編碼細微聲學特徵的預測目標進行預訓練的模型，在去噪等任務上表現更好，而使用專注於更高層次抽象的預測目標進行預訓練的模型，則在與內容相關的任務上更有效。

儘管預測目標很重要，但影響它們的設計選擇尚未被徹底研究。本研究探討了這些設計選擇及其對後續任務表現的影響。我們的結果顯示，對 HuBERT 常用的設計選擇可能並不是最佳的。我們提出了創造更具資訊性的預測目標的方法，並通過在各種後續任務上的改進來證明它們的有效性。

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Archives