技術
發佈於
2024年10月30日
作者
扎蘭·博爾索斯、馬特·沙里菲和馬爾科·塔利亞薩基
我們的先進語音生成技術正在幫助世界各地的人們與更自然、對話式和直觀的數字助手及人工智慧工具互動。
語音是人類連結的核心。它幫助人們在全球範圍內交流信息和想法,表達情感並創造相互理解。隨著我們為生成自然、動態聲音而開發的技術不斷改進,我們正在解鎖更豐富、更具吸引力的數字體驗。
在過去幾年中,我們一直在推動音頻生成的前沿,開發可以從一系列輸入(如文本、節奏控制和特定聲音)中創建高品質自然語音的模型。這項技術為許多Google產品和實驗提供了單一講者音頻的支持,包括Gemini Live、Project Astra、Journey Voices和YouTube的自動配音,並幫助世界各地的人們與更自然、對話式和直觀的數字助手及人工智慧工具互動。
我們與Google各合作夥伴緊密合作,最近幫助開發了兩個新功能,可以生成長篇、多講者的對話,使複雜內容更易於理解:
NotebookLM音頻概述將上傳的文檔轉化為引人入勝的生動對話。只需一次點擊,兩位AI主持人就可以總結用戶資料,建立主題之間的聯繫並互相調侃。Illuminate則創建有關研究論文的正式AI生成討論,以幫助使知識變得更易於獲取和消化。
在這裡,我們提供了支持所有這些產品和實驗工具的最新語音生成研究的概述。
音頻生成的先進技術
多年來,我們一直在投資音頻生成研究,探索在我們的產品和實驗工具中生成更自然對話的新方法。在我們之前關於SoundStorm的研究中,我們首次展示了在多個講者之間生成30秒自然對話的能力。
這擴展了我們早期的工作SoundStream和AudioLM,使我們能夠將許多基於文本的語言建模技術應用於音頻生成問題。
SoundStream是一種神經音頻編解碼器,能有效地壓縮和解壓音頻輸入,而不影響其質量。作為訓練過程的一部分,SoundStream學會了如何將音頻映射到一系列聲學標記。這些標記捕獲了重建音頻所需的所有信息,包括韻律和音色等屬性。
AudioLM將音頻生成視為一項語言建模任務,以生成像SoundStream這樣的編解碼器的聲學標記。因此,AudioLM框架對生成的音頻類型或構成不做任何假設,並且可以靈活處理各種聲音,而無需進行架構調整,使其成為建模多講者對話的良好候選者。
基於這項研究,我們最新的語音生成技術可以在給定對話劇本和講者轉換標記的情況下生成2分鐘的對話,並在自然度、講者一致性和音質上有所改善。該模型還能在單個Tensor處理單元(TPU)v5e芯片上以不到3秒的時間完成此任務,僅需一次推理過程。這意味著它生成音頻的速度比實時快40倍以上。
擴展我們的音頻生成模型
將我們的單講者生成模型擴展到多講者模型,則成為數據和模型容量的問題。為了幫助我們最新的語音生成模型生成更長的語音片段,我們創建了一種更高效的語音編解碼器,將音頻壓縮為一系列標記,速度低至每秒600位,而不影響輸出的質量。
我們的編解碼器生成的標記具有層次結構,並按時間幀分組。組內的第一批標記捕獲語音和韻律信息,而最後的標記編碼精細的音頻細節。
即使使用我們的新語音編解碼器,生成2分鐘的對話仍需生成超過5000個標記。為了建模這些長序列,我們開發了一種專門的Transformer架構,可以有效處理信息的層次結構,與我們的聲學標記結構相匹配。
使用這種技術,我們可以在單次自回歸推理過程中有效生成與對話相對應的聲學標記。一旦生成,這些標記可以使用我們的語音編解碼器解碼回音頻波形。
為了教導我們的模型如何生成多講者之間的真實交流,我們在數十萬小時的語音數據上進行了預訓練。然後我們在一個更小的對話數據集上進行了微調,該數據集具有高音質和精確的講者註釋,由多位聲音演員的即興對話和真實的流利度(即真實對話中的“嗯”和“啊”)組成。這一步驟教會模型如何在生成的對話中可靠地在講者之間切換,並僅輸出具有真實停頓、音調和節奏的錄音室質量音頻。
根據我們的人工智慧原則及我們對負責任開發和部署人工智慧技術的承諾,我們正在將SynthID技術納入其中,以對這些模型生成的非瞬時AI音頻內容進行水印處理,以幫助防範這項技術的潛在濫用。
前方的新語音體驗
我們現在專注於提高模型的流暢度、音質,並為韻律等特徵添加更細緻的控制,同時探索如何將這些進展與視頻等其他模態相結合。
先進語音生成的潛在應用廣泛,特別是當與我們的Gemini系列模型結合時。從增強學習體驗到使內容更具普遍可及性,我們期待繼續推動基於語音技術的可能性邊界。
致謝
本工作的作者:扎蘭·博爾索斯、馬特·沙里菲、布萊恩·麥克威廉斯、李雲鵬、達米安·文森特、費利克斯·德·香蒙特·基特里、馬丁·桑德邁爾、尤金·卡里托諾夫、亞歷克斯·圖多爾、維克多·烏古雷安、卡羅利斯·米修納斯、塞爾坦·吉爾金、喬納斯·羅斯福斯、傑克·沃克和馬爾科·塔利亞薩基。
我們感謝利蘭·瑞奇斯、拉爾夫·萊斯、保羅·米德爾頓、波莉·帕塔、敏·張和RJ·斯凱瑞·瑞安在對話數據方面的關鍵努力。
我們非常感謝來自實驗室、Illuminate、Cloud、Speech和YouTube的合作夥伴,在將這些模型整合到產品中的出色工作。
我們還感謝法蘭索瓦·博法耶、克里希納·巴拉特、湯姆·休姆、西蒙·德科明、詹姆斯·趙對該項目的指導。