高效串流音頻視覺主動揚聲器檢測系統

主動說話者檢測 (ASD) 的挑戰

這篇文章探討了主動說話者檢測 (ASD) 的困難任務，這個系統需要在一系列視頻畫面中即時判斷某人是否在說話。雖然之前的研究在改善網絡架構和學習有效的ASD表示方面取得了重大進展，但在即時系統部署的探索上仍然存在一個重要的空白。現有的模型通常面臨高延遲和高記憶體使用的問題，這使得它們在即時應用中變得不切實際。

解決即時挑戰的方案

為了填補這個空白，我們提出了兩個方案來應對即時限制所帶來的主要挑戰。首先，我們介紹了一種方法，限制ASD模型使用的未來上下文畫面的數量。這樣做可以減少在做出決定之前需要處理整個未來畫面序列的需求，顯著降低延遲。其次，我們提出了一個更嚴格的限制，限制模型在推理過程中可以訪問的過去畫面總數。這解決了運行串流ASD系統時持續存在的記憶體問題。

實驗驗證我們的方法

除了這些理論框架，我們還進行了大量實驗來驗證我們的方法。我們的結果顯示，受限的變壓器模型可以達到與最先進的循環模型（例如單向GRU）相當甚至更好的性能，並且需要的上下文畫面數量顯著減少。此外，我們還揭示了ASD系統的時間記憶需求，顯示較大的過去上下文對準確性有更深遠的影響，而不是未來上下文。在CPU上進行性能分析時，我們發現我們的高效架構在可用的過去上下文數量上受到記憶體的限制，而計算成本與記憶體成本相比是微不足道的。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 高效串流音頻視覺主動揚聲器檢測系統