推動音頻生成的前沿

技術

發佈於
2024年10月30日

作者

扎蘭·博爾索斯、馬特·沙里菲和馬爾科·塔利亞薩基

我們的先進語音生成技術正在幫助世界各地的人們與更自然、對話式和直觀的數字助手及人工智慧工具互動。

語音是人類連結的核心。它幫助人們在全球範圍內交流信息和想法，表達情感並創造相互理解。隨著我們為生成自然、動態聲音而開發的技術不斷改進，我們正在解鎖更豐富、更具吸引力的數字體驗。

在過去幾年中，我們一直在推動音頻生成的前沿，開發可以從一系列輸入（如文本、節奏控制和特定聲音）中創建高品質自然語音的模型。這項技術為許多Google產品和實驗提供了單一講者音頻的支持，包括Gemini Live、Project Astra、Journey Voices和YouTube的自動配音，並幫助世界各地的人們與更自然、對話式和直觀的數字助手及人工智慧工具互動。

我們與Google各合作夥伴緊密合作，最近幫助開發了兩個新功能，可以生成長篇、多講者的對話，使複雜內容更易於理解：

NotebookLM音頻概述將上傳的文檔轉化為引人入勝的生動對話。只需一次點擊，兩位AI主持人就可以總結用戶資料，建立主題之間的聯繫並互相調侃。Illuminate則創建有關研究論文的正式AI生成討論，以幫助使知識變得更易於獲取和消化。

在這裡，我們提供了支持所有這些產品和實驗工具的最新語音生成研究的概述。

音頻生成的先進技術

多年來，我們一直在投資音頻生成研究，探索在我們的產品和實驗工具中生成更自然對話的新方法。在我們之前關於SoundStorm的研究中，我們首次展示了在多個講者之間生成30秒自然對話的能力。

這擴展了我們早期的工作SoundStream和AudioLM，使我們能夠將許多基於文本的語言建模技術應用於音頻生成問題。

SoundStream是一種神經音頻編解碼器，能有效地壓縮和解壓音頻輸入，而不影響其質量。作為訓練過程的一部分，SoundStream學會了如何將音頻映射到一系列聲學標記。這些標記捕獲了重建音頻所需的所有信息，包括韻律和音色等屬性。

AudioLM將音頻生成視為一項語言建模任務，以生成像SoundStream這樣的編解碼器的聲學標記。因此，AudioLM框架對生成的音頻類型或構成不做任何假設，並且可以靈活處理各種聲音，而無需進行架構調整，使其成為建模多講者對話的良好候選者。

根據幾份與馬鈴薯相關的文檔生成的NotebookLM音頻概述的多講者對話示例。

基於這項研究，我們最新的語音生成技術可以在給定對話劇本和講者轉換標記的情況下生成2分鐘的對話，並在自然度、講者一致性和音質上有所改善。該模型還能在單個Tensor處理單元（TPU）v5e芯片上以不到3秒的時間完成此任務，僅需一次推理過程。這意味著它生成音頻的速度比實時快40倍以上。

擴展我們的音頻生成模型

將我們的單講者生成模型擴展到多講者模型，則成為數據和模型容量的問題。為了幫助我們最新的語音生成模型生成更長的語音片段，我們創建了一種更高效的語音編解碼器，將音頻壓縮為一系列標記，速度低至每秒600位，而不影響輸出的質量。

我們的編解碼器生成的標記具有層次結構，並按時間幀分組。組內的第一批標記捕獲語音和韻律信息，而最後的標記編碼精細的音頻細節。

即使使用我們的新語音編解碼器，生成2分鐘的對話仍需生成超過5000個標記。為了建模這些長序列，我們開發了一種專門的Transformer架構，可以有效處理信息的層次結構，與我們的聲學標記結構相匹配。

使用這種技術，我們可以在單次自回歸推理過程中有效生成與對話相對應的聲學標記。一旦生成，這些標記可以使用我們的語音編解碼器解碼回音頻波形。

動畫顯示我們的語音生成模型如何自回歸地生成一串音頻標記，這些標記被解碼回由兩位講者對話組成的波形。

為了教導我們的模型如何生成多講者之間的真實交流，我們在數十萬小時的語音數據上進行了預訓練。然後我們在一個更小的對話數據集上進行了微調，該數據集具有高音質和精確的講者註釋，由多位聲音演員的即興對話和真實的流利度（即真實對話中的“嗯”和“啊”）組成。這一步驟教會模型如何在生成的對話中可靠地在講者之間切換，並僅輸出具有真實停頓、音調和節奏的錄音室質量音頻。

根據我們的人工智慧原則及我們對負責任開發和部署人工智慧技術的承諾，我們正在將SynthID技術納入其中，以對這些模型生成的非瞬時AI音頻內容進行水印處理，以幫助防範這項技術的潛在濫用。