用戶定義的關鍵字識別挑戰
在資源有限的邊緣設備上,進行用戶定義的關鍵字識別是一個挑戰。不過,關鍵字的長度通常有一個最大限制,而這在之前的研究中並沒有被充分利用。我們對關鍵字長度分佈的分析顯示,用戶定義的關鍵字識別可以被視為一個長度受限的問題,這樣就不需要對變化的文本長度進行聚合。
我們的解決方案:SLiCK
這導致我們提出了一種高效的關鍵字識別方法,稱為SLiCK(利用子序列進行長度受限的關鍵字識別)。我們還引入了一種子序列級別的匹配方案,能夠在更細的層面上學習音頻與文本之間的關係,從而通過增強上下文來更有效地區分相似發音的關鍵字。
SLiCK的訓練方法
在SLiCK中,模型使用多任務學習的方法進行訓練,包含兩個模塊:Matcher(發音級別匹配任務和新穎的子序列級別匹配任務)和Encoder(音素識別任務)。這種方法在Libriphrase困難數據集上改善了基準結果,將AUC從88.52提高到94.9,並將EER從18.82降低到11.1。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!