摘要:研究人員在將大腦信號轉換為可聽語音方面取得了突破,準確率高達100%。這個團隊使用大腦植入物和人工智慧,直接將癲癇患者的大腦活動映射到語音上。
這項技術旨在為那些處於鎖定狀態的人恢復語音,他們因癱瘓而無法說話。研究人員相信,這個項目的成功標誌著腦機介面的重大進展。
關鍵事實:
- 研究人員使用大腦植入物和人工智慧的結合,能以92-100%的準確率預測所說的單詞。
- 團隊將實驗重點放在非癱瘓的臨時大腦植入者身上,根據他們的大腦活動解碼他們所說的話。
- 雖然目前技術主要集中在單個單詞上,但未來的目標包括根據大腦活動預測完整的句子和段落。
來源:拉德布德大學 (Radboud University)
來自拉德布德大學和烏特勒支大學醫學中心 (UMC Utrecht) 的研究人員成功將大腦信號轉換為可聽的語音。
通過結合植入物和人工智慧解碼大腦信號,他們能以92到100%的準確率預測人們想要說的話。
他們的研究結果本月發表在《神經工程期刊》上。
根據拉德布德大學多納德斯大腦、認知與行為研究所的研究員朱莉亞·貝雷祖茨卡雅 (Julia Berezutskaya) 的說法,這項研究顯示了腦機介面領域的有希望發展。貝雷祖茨卡雅和烏特勒支大學醫學中心的同事使用大腦植入物在癲癇患者身上推斷人們所說的話。
恢復語音
貝雷祖茨卡雅表示:“最終,我們希望將這項技術提供給那些處於鎖定狀態的患者,他們癱瘓且無法溝通。”
“這些人失去了移動肌肉的能力,因此也無法說話。通過開發腦機介面,我們可以分析大腦活動,讓他們再次擁有語音。”
在他們的新論文實驗中,研究人員要求非癱瘓的臨時大腦植入者大聲說出幾個單詞,同時測量他們的大腦活動。
貝雷祖茨卡雅說:“我們能夠在一方面建立大腦活動與語音之間的直接映射,另一方面,我們還使用先進的人工智慧模型將這些大腦活動直接轉換為可聽的語音。”
“這意味著我們不僅能夠猜測人們在說什麼,還能立即將這些單詞轉換為可理解的聲音。此外,重建的語音甚至聽起來像原說話者的語調和說話方式。”
全球的研究人員正在努力尋找識別大腦模式中的單詞和句子的方法。
研究人員能夠使用相對較小的數據集重建可理解的語音,顯示他們的模型能在有限的數據下揭示大腦活動與語音之間的複雜映射。
關鍵的是,他們還進行了志願者的聽力測試,以評估合成單詞的可識別性。
這些測試的正面結果表明,這項技術不僅能正確識別單詞,還能以可聽且易於理解的方式傳達這些單詞,就像真正的聲音一樣。
限制
貝雷祖茨卡雅警告說:“目前仍然存在一些限制。在這些實驗中,我們要求參與者大聲說出十二個單詞,而這些就是我們試圖檢測的單詞。”
“一般來說,預測單個單詞比預測整個句子簡單。未來,人工智慧研究中使用的大型語言模型可能會有所幫助。”
“我們的目標是根據人們的大腦活動,預測他們想要說的完整句子和段落。要實現這一目標,我們需要更多的實驗、更先進的植入物、更大的數據集和更先進的人工智慧模型。”
“所有這些過程仍需要幾年時間,但看起來我們正朝著正確的方向前進。”
關於這項人工智慧和神經科技研究的新聞
作者:托馬斯·哈能 (Thomas Haenen) 來源:拉德布德大學 聯絡:托馬斯·哈能 – 拉德布德大學 圖片:該圖片由神經科學新聞提供
原始研究:開放存取。“基於優化深度學習模型的感覺運動大腦活動的直接語音重建” 朱莉亞·貝雷祖茨卡雅等人。《神經工程期刊》
摘要
基於優化深度學習模型的感覺運動大腦活動的直接語音重建
腦機介面 (BCI) 技術的發展對於幫助失去語言能力的重度癱瘓個體進行溝通至關重要。
一種受到關注的BCI控制策略是從神經數據中解碼語音。
最近的研究顯示,直接的神經記錄和先進的計算模型的結合可以提供有希望的結果。
了解哪些解碼策略能提供最佳且直接可應用的結果,對於推進這一領域至關重要。
在這篇論文中,我們優化並驗證了一種基於語音重建的解碼方法,直接來自語音產生任務期間的高密度皮層電圖記錄。
我們顯示出:1)專門的機器學習優化重建模型對於實現最佳重建性能至關重要;2)重建語音中的單詞解碼達到92-100%的準確率(隨機水平為8%);3)直接從感覺運動大腦活動重建的語音是可理解的。
這些結果強調了在實現最佳語音解碼結果中模型優化的必要性,並突顯了從感覺運動皮層進行基於重建的語音解碼對於開發下一代BCI技術以進行溝通的潛力。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!