SLiCK：利用子序列進行長度限制的關鍵字檢測

在資源有限的邊緣設備上，進行用戶定義的關鍵字識別是一個挑戰。不過，關鍵字的長度通常有一個最大限制，而這在之前的研究中並沒有被充分利用。我們對關鍵字長度分佈的分析顯示，用戶定義的關鍵字識別可以被視為一個長度受限的問題，這樣就不需要對變化的文本長度進行聚合。

這導致我們提出了一種高效的關鍵字識別方法，稱為SLiCK（利用子序列進行長度受限的關鍵字識別）。我們還引入了一種子序列級別的匹配方案，能夠在更細的層面上學習音頻與文本之間的關係，從而通過增強上下文來更有效地區分相似發音的關鍵字。

在SLiCK中，模型使用多任務學習的方法進行訓練，包含兩個模塊：Matcher（發音級別匹配任務和新穎的子序列級別匹配任務）和Encoder（音素識別任務）。這種方法在Libriphrase困難數據集上改善了基準結果，將AUC從88.52提高到94.9，並將EER從18.82降低到11.1。

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Archives