有效的自動語音辨識解碼方法
這篇文章介紹了一種有效的解碼方法,適用於端到端自動語音辨識(E2E-ASR)和大型語言模型(LLMs)。雖然淺融合是將語言模型融入E2E-ASR解碼的最常見方法,但我們在使用LLMs時面臨兩個實際問題。第一,LLM推理的計算成本很高。第二,ASR模型和LLM之間可能存在詞彙不匹配的問題。為了解決這個不匹配的問題,我們需要重新訓練ASR模型和/或LLM,這通常既耗時又不切實際。
延遲融合的提出
我們提出了一種名為「延遲融合」的方法,這種方法在解碼過程中對ASR假設應用LLM分數時會有延遲,並且使得在ASR任務中更容易使用預訓練的LLM。這種方法不僅可以減少LLM評分的假設數量,還可以減少LLM推理的調用次數。此外,如果ASR和LLM使用不同的標記方式,這種方法還允許在解碼過程中重新標記ASR假設。
延遲融合的優勢
我們展示了延遲融合在解碼速度和準確性上比淺融合和N-best重新評分有更好的表現,這是基於使用LibriHeavy ASR語料庫和三個公共LLM,包括OpenLLaMA 3B、OpenLLaMA 7B和Mistral 7B的實驗結果。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!