誰不喜歡音樂呢?你有沒有曾經記得一首歌的旋律,但卻忘了歌詞,甚至無法找出這首歌的名字?來自谷歌 (Google) 和大阪大學 (Osaka University) 的研究人員一起找到了一種方法,可以根據大腦活動重建音樂,這是利用功能性磁共振成像 (fMRI) 技術來實現的。根據音樂的類型、樂器和情緒,音樂就這樣生成了。
這些研究人員使用深度神經網絡,通過預測高層次、結構化的音樂,從 fMRI 掃描中生成音樂。根據人類聽覺皮層的活動,可以預測音樂的不同成分。他們使用 JukeBox 進行實驗,這是一種能生成高時間一致性的音樂,並且包含可預測的特徵。他們使用一種壓縮的神經音頻編解碼器,在低比特率下實現高質量的音頻重建。
從 fMRI 生成音樂需要一些中間步驟,包括通過選擇音樂嵌入來表示音樂。他們使用的架構包括音樂嵌入,這對後續的音樂生成來說是一個瓶頸。如果預測的音樂嵌入與受試者聽到的原始刺激的音樂嵌入接近,則會使用 MusicLM(音樂生成模型)來生成與原始刺激相似的音樂。
音樂生成模型 MusicLM 包含了名為 MuLan 和 w2v-BERT-avg 的音頻衍生嵌入。在這兩種嵌入中,MuLan 在側前額皮層的預測表現通常比 w2v-BERT-avg 更好,因為它捕捉了人腦中高層次的音樂信息處理。音樂的抽象信息在聽覺皮層中的表現方式與音頻衍生嵌入不同。
MuLan 嵌入通過生成模型轉換為音樂。嵌入中未包含的信息在模型中被重新獲得。在檢索技術中,重建的音樂是直接從音樂數據集中提取的,這確保了更高的重建質量。研究人員使用來自 fMRI 反應數據的線性回歸方法。這種方法也有其局限性,包括從 fMRI 數據中獲得的準確信息量的不確定性。
研究人員表示,他們未來的工作包括從個體的想像中重建音樂。當用戶想像一段音樂片段時,解碼分析將檢查想像的重建有多忠實。這將符合真正的讀心標籤。存在著不同音樂專業知識的多樣主題,這需要通過比較來獲得多種重建特性。比較專業音樂家之間的重建質量,可以提供有用的見解,幫助了解他們的觀點和理解的差異。
他們的研究工作只是將你純粹的想像思想變為現實的第一步。這也將導致從純粹的想像中生成全息圖。這一領域的進步還將從生物學的角度提供定量解釋。
查看論文和項目頁面。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了加入我們的 26,000 多名機器學習 (ML) 子 Reddit、Discord 頻道和電子郵件通訊,與我們分享最新的 AI 研究新聞、酷炫的 AI 項目等。
新聞來源
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!