無論你是在描述壞掉的汽車引擎聲,還是模仿鄰居的貓咪叫聲,用聲音模仿聲音是一種有幫助的方式,當你無法用言語表達時。
聲音模仿就像用鉛筆快速畫出一幅圖畫來表達你所看到的東西,只不過這次是用你的聲音來表達聲音。這聽起來可能很難,但其實我們都會這樣做:你可以試著用聲音模仿救護車的警報聲、烏鴉的叫聲或是鐘聲。
受到認知科學啟發,麻省理工學院電腦科學與人工智慧實驗室 (MIT CSAIL) 的研究人員開發了一個人工智慧系統,能夠在沒有任何訓練的情況下,產生類似人類的聲音模仿,甚至在之前從未“聽過”人類的聲音模仿。
為了達成這個目標,研究人員設計了這個系統,使其能夠像我們一樣產生和解釋聲音。他們首先建立了一個人類聲道的模型,模擬聲帶的振動如何被喉嚨、舌頭和嘴唇塑形。接著,他們使用了一種受到認知啟發的人工智慧算法來控制這個聲道模型,讓它產生模仿,並考慮人類在特定情境中選擇表達聲音的方式。
這個模型能夠有效地從世界上提取許多聲音,並生成類似人類的模仿,包括像樹葉沙沙作響、蛇的嘶嘶聲和接近的救護車警報聲等噪音。這個模型也可以反向運行,根據人類的聲音模仿來猜測真實世界的聲音,就像一些電腦視覺系統可以根據草圖檢索高品質的圖像一樣。例如,這個模型可以正確區分人類模仿貓咪“喵”的聲音和“嘶”的聲音。
未來,這個模型可能會導致更直觀的“基於模仿”的聲音設計介面,讓虛擬實境中的AI角色更像人類,甚至幫助學生學習新語言的方法。
共同主筆的麻省理工學院 CSAIL 博士生卡提克·昌德拉 (Kartik Chandra SM ’23) 和卡里瑪·馬 (Karima Ma),以及本科研究員馬修·卡倫 (Matthew Caren) 提到,計算機圖形學的研究者早已認識到,現實主義並不總是視覺表達的最終目標。例如,抽象畫或孩子的蠟筆畫可以和照片一樣具有表達性。
昌德拉指出:“在過去幾十年中,素描算法的進步為藝術家提供了新工具,推動了AI和計算機視覺的發展,甚至加深了我們對人類認知的理解。就像素描是一種抽象的、非照片真實的圖像表現,我們的方法捕捉了人類表達所聽到聲音的抽象、非聲音真實的方式。這讓我們了解聽覺抽象的過程。”
模仿的藝術,分為三個部分
團隊開發了三個越來越精細的模型版本,以便與人類的聲音模仿進行比較。首先,他們創建了一個基準模型,旨在生成與真實世界聲音相似的模仿,但這個模型並沒有很好地匹配人類行為。
研究人員接著設計了第二個“交流”模型。根據卡倫的說法,這個模型考慮了對聽者來說聲音的獨特性。例如,你可能會通過模仿摩托艇引擎的轟鳴聲來模仿它的聲音,因為這是它最獨特的聽覺特徵,即使這不是聲音中最響亮的部分(與水花濺起相比)。這第二個模型生成的模仿比基準模型更好,但團隊希望進一步改進。
為了更進一步,研究人員在模型中增加了最後一層推理。“聲音模仿的效果會根據你投入的努力程度而有所不同。產生完全準確的聲音需要時間和精力,”昌德拉說。研究人員的完整模型考慮到了這一點,試圖避免非常快速、響亮或高低音調的發聲,因為人們在對話中不太可能使用這些。結果是:更像人類的模仿,與人類在模仿相同聲音時所做的許多決策密切匹配。
在建立這個模型後,團隊進行了一項行為實驗,以查看AI生成的聲音模仿或人類生成的聲音模仿是否被人類評審認為更好。值得注意的是,實驗中的參與者一般更喜歡AI模型,比例達到25%,對於摩托艇的模仿甚至高達75%,對於槍聲的模仿則為50%。
朝著更具表現力的聲音技術邁進
對音樂和藝術技術充滿熱情的卡倫設想,這個模型可以幫助藝術家更好地將聲音傳達給計算系統,並協助電影製作人和其他內容創作者生成更具特定情境的AI聲音。它還可以讓音樂家通過模仿難以用文字描述的噪音,快速搜索聲音資料庫。
同時,卡倫、昌德拉和馬正在研究他們的模型在其他領域的應用,包括語言的發展、嬰兒如何學習說話,甚至是像鸚鵡和歌鳥等鳥類的模仿行為。
團隊仍然需要對目前版本的模型進行改進:它在某些輔音上存在困難,例如“z”,這導致某些聲音的模仿不準確,比如蜜蜂嗡嗡聲。他們也還無法複製人類模仿語音、音樂或在不同語言中以不同方式模仿的聲音,比如心跳聲。
斯坦福大學語言學教授羅伯特·霍金斯 (Robert Hawkins) 說,語言中充滿了擬聲詞和模仿但不完全重現其描述內容的詞語,例如“喵”這個聲音並不完全準確地模仿貓的叫聲。“從真實貓的聲音到‘喵’這個詞的過程,揭示了生理、社會推理和溝通在語言演變中的複雜互動,”霍金斯說,他並未參與 CSAIL 的研究。“這個模型為形式化和測試這些過程的理論提供了一個令人興奮的步驟,展示了人類聲道的物理限制和來自溝通的社會壓力都是解釋聲音模仿分佈所需的。”
卡倫、昌德拉和馬與另外兩位 CSAIL 成員共同撰寫了這篇論文:喬納森·拉根-凱利 (Jonathan Ragan-Kelley),麻省理工學院電機工程與計算機科學副教授,以及約書亞·特嫩鮑姆 (Joshua Tenenbaum),麻省理工學院大腦與認知科學教授及大腦、思想和機器中心成員。他們的研究部分得到了赫茨基金會和國家科學基金會的支持,並於十二月初在 SIGGRAPH Asia 上發表。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!