摘要:一種新開發的機器學習模型可以根據人們的神經活動預測他們即將說出的單詞,這些神經活動是通過一種微創的神經假體設備記錄的。
來源:HSE
來自HSE大學和莫斯科國立醫科牙科大學的研究人員開發了一種機器學習模型,能夠根據受試者的神經活動預測他們即將說出的單詞,這些神經活動是通過一小組微創電極記錄的。
這篇名為《從一小組空間分隔的微創顱內腦電圖電極中解碼語音,使用緊湊且可解釋的神經網絡》的論文已發表在《神經工程期刊》中。這項研究由俄羅斯政府的資助支持,作為“科學與大學”國家項目的一部分。
全球有數百萬人受到語言障礙的影響,這限制了他們的交流能力。語言喪失的原因各不相同,包括中風和某些先天性疾病。
目前有技術可以恢復這些患者的交流功能,包括“靜默語音”介面,這種介面通過追蹤說話時的發音肌肉運動來識別語音,即使人們不發出聲音。然而,這些設備對某些患者有效,但對其他患者無效,例如面部肌肉癱瘓的人。
語音神經假體——能夠根據大腦活動解碼語音的腦-電腦介面——可以為這些患者提供一種可行且可靠的解決方案,恢復他們的交流能力。
與個人電腦不同,腦-電腦介面(BCI)設備是直接由大腦控制的,無需鍵盤或麥克風。
BCI在語音假體中的廣泛應用的一個主要障礙是,這項技術需要進行高度侵入性的手術,將電極植入大腦組織中。
最準確的語音識別是通過覆蓋大腦皮層大面積的電極實現的。然而,這些解讀大腦活動的解決方案並不適合長期使用,並且對患者存在重大風險。
HSE生物電介面中心和莫斯科國立醫科牙科大學的研究人員研究了創建一種功能性神經假體的可能性,該假體能夠通過從一小組植入有限皮層區域的電極讀取大腦活動來以可接受的準確性解碼語音。
作者建議,未來這種微創手術甚至可以在局部麻醉下進行。在本研究中,研究人員收集了兩名癲癇患者的數據,這些患者已經植入了顱內電極,以進行術前定位以確定癲癇發作的區域。
第一名患者雙側植入了總共五根sEEG電極,每根有六個接觸點;第二名患者植入了九根ECoG電極條,每根有八個接觸點。
與ECoG不同,sEEG的電極可以通過顱骨上的鑽孔植入,而不需要完全開顱。在這項研究中,僅使用了一名患者的單根sEEG電極的六個接觸點和另一名患者的單根ECoG電極條的八個接觸點來解碼神經活動。
受試者被要求大聲朗讀六個句子,每個句子隨機呈現30到60次。這些句子的結構各不相同,且大多數單詞的首字母相同。這些句子總共包含26個不同的單詞。在受試者朗讀時,電極記錄了他們的腦部活動。
這些數據隨後與音頻信號對齊,形成27個類別,包括26個單詞和一個靜音類別。最初40分鐘實驗中錄製的信號被用來訓練一個基於神經網絡的機器學習模型。
神經網絡的學習任務是根據發聲前的神經活動數據預測下一個即將說出的單詞(類別)。
在設計神經網絡的架構時,研究人員希望使其簡單、緊湊且易於解釋。他們提出了一種兩階段的架構,首先從錄製的腦部活動數據中提取內部語音表示,生成對數梅爾頻譜係數,然後預測特定類別,即單詞或靜音。
經過訓練,神經網絡在第一名患者使用單根sEEG電極錄製的六個數據通道中達到了55%的準確率,而在第二名患者使用單根ECoG電極條錄製的八個數據通道中達到了70%的準確率。這種準確率與其他研究中使用的需要在整個皮層表面植入電極的設備所展示的準確率相當。
這個可解釋的模型使得能夠用神經生理學的術語解釋哪些神經信息對預測即將說出的單詞貢獻最大。
研究人員檢查了來自不同神經元群體的信號,以確定哪些信號對下游任務至關重要。
他們的發現與語音映射結果一致,這表明該模型使用了關鍵的神經信號,因此可以用來解碼想像中的語音。
這種解決方案的另一個優勢是,它不需要手動特徵工程。該模型已經學會直接從腦部活動數據中提取語音表示。
結果的可解釋性也表明,該網絡解碼的是來自大腦的信號,而不是來自任何伴隨活動的信號,例如發音肌肉的電信號或由麥克風效應引起的信號。
研究人員強調,預測始終基於發聲前的神經活動數據。他們認為,這確保了決策規則不會使用聽覺皮層對已發聲語音的反應。
“使用這種介面對患者的風險最小。如果一切順利,未來可能可以從少量微創電極記錄的神經活動中解碼想像中的語音,並且可以在門診環境中進行局部麻醉。”——本研究的主要作者、HSE認知神經科學研究所生物電介面中心主任Alexey Ossadtchi說。
關於這項神經科技研究新聞
作者:Ksenia Bregadze來源:HSE聯絡:Ksenia Bregadze – HSE圖片:該圖片為公有領域
原始研究:閉鎖訪問。“從一小組空間分隔的微創顱內腦電圖電極中解碼語音,使用緊湊且可解釋的神經網絡”由Alexey Ossadtchi等人發表於《神經工程期刊》
摘要
從一小組空間分隔的微創顱內腦電圖電極中解碼語音,使用緊湊且可解釋的神經網絡
目標。語音解碼是腦-電腦介面應用中最有趣的之一,為患者的康復以及人類之間的直接和無縫交流開辟了豐富的機會。典型的解決方案依賴於通過開顱手術植入的大量分佈電極進行侵入性錄製。在這裡,我們探索了在微創環境中使用少量空間分隔的顱內電極創建語音假體的可能性。
方法。我們在兩名植入侵入性電極的患者中收集了一小時的數據(來自兩個會話)。然後,我們僅使用與單根立體電圖(sEEG)電極或一根電皮層圖(ECoG)條相關的接觸點,將神經活動解碼為26個單詞和一個靜音類別。我們使用了一種緊湊的基於卷積網絡的架構,其空間和時間過濾器權重允許進行生理上合理的解釋。
主要結果。我們在第一名患者中僅使用單根微創sEEG電極錄製的六個數據通道時,平均達到了55%的準確率;在第二名患者中僅使用單根ECoG電極條錄製的八個數據通道時,達到了70%的準確率,成功分類了26+1個明確發音的單詞。我們的緊湊架構不需要使用預先設計的特徵,學習速度快,並且產生了一個穩定、可解釋且生理上有意義的決策規則,成功運行於與訓練時使用的不同時間區間收集的連續數據集。關鍵神經元群體的空間特徵與主動和被動語音映射結果相符,並顯示出神經活動特有的反向空間-頻率關係。與其他架構相比,我們的緊湊解決方案的表現與最近在神經語音解碼文獻中出現的那些相當或更好。
意義。我們展示了使用少量電極構建語音假體的可能性,並基於從少量訓練數據中得出的緊湊無特徵工程的解碼器。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!