神經義肢裝置在腦機介面(BCIs)方面取得了重大進展,讓因為語言或運動障礙(例如無語症、漸凍人症或重度癱瘓)的人能夠進行溝通。這些裝置透過在運動區域植入電極來解碼神經活動模式,讓使用者能夠組成完整的句子。早期的腦機介面只能識別基本的語言元素,但最近在人工智慧(AI)驅動的解碼技術上取得了接近自然語言的說話速度。儘管這些進展令人振奮,侵入式的神經義肢仍需進行神經外科手術植入,這帶來了腦出血、感染和長期維護等風險。因此,這類裝置在廣泛應用上仍然有限,尤其是對於無法反應的病人群體。
非侵入式的腦機介面,主要使用頭皮腦電圖(EEG),提供了一個更安全的替代方案,但信號質量較差,使用者需要進行認知要求高的任務才能有效解碼。即使使用了優化的方法,基於EEG的腦機介面在準確性上仍然面臨挑戰,限制了它們的實際使用。磁腦電圖(MEG)可能是一個解決方案,因為它提供了比EEG更好的信號與噪聲比。最近,基於MEG信號的AI模型在語言理解任務上顯示出顯著的解碼準確性提升。這些發現表明,將高解析度的MEG錄音與先進的AI模型結合,可能實現可靠的非侵入式語言產生腦機介面。
來自Meta AI、法國高等師範學院(École Normale Supérieure, Université PSL, CNRS)、阿道夫·羅斯柴爾德醫院基金會、巴斯克認知、腦與語言中心及巴斯克科學基金會(Ikerbasque)的研究人員開發了Brain2Qwerty。這個深度學習模型能從非侵入式的腦活動錄音中解碼文本產生。研究中有35名參與者在打字時記錄了他們的神經活動,使用的是EEG或MEG。Brain2Qwerty在這些信號上訓練後,使用MEG時達到了32%的字符錯誤率(CER),顯著優於EEG的67%。這些發現縮小了侵入式和非侵入式腦機介面之間的差距,為無法溝通的病人提供了潛在的應用。
這項研究探討了使用非侵入式腦錄音(透過EEG和MEG)來解碼語言產生的過程,參與者在打字句子時進行了腦活動的記錄。35名右撇子的西班牙語母語者打字他們聽到的單詞,腦活動的記錄時間分別為EEG近18小時和MEG近22小時。使用了一種自訂的無干擾鍵盤。Brain2Qwerty模型由卷積和變壓器模組組成,能從神經信號中預測按鍵,並進一步由字符級語言模型進行優化。數據預處理包括過濾、分段和縮放,而模型訓練則使用了交叉熵損失和AdamW優化。性能評估使用了手錯誤率(HER)來與傳統的腦機介面基準進行比較。
為了評估打字協議是否產生預期的腦反應,研究人員分析了左手和右手按鍵的神經活動差異。MEG在分類手部動作和字符解碼方面表現優於EEG,達到74%和22%的最高準確率。Brain2Qwerty深度學習模型在解碼性能上顯著優於基準方法。消融研究確認了其卷積、變壓器和語言模型組件的影響。進一步分析顯示,常用的單詞和字符解碼效果更佳,錯誤與鍵盤佈局相關。這些發現突顯了Brain2Qwerty在從神經信號中解碼字符的有效性。
總結來說,這項研究介紹了Brain2Qwerty,一種使用非侵入式MEG錄音來解碼句子產生的方法。其平均字符錯誤率達到32%,顯著優於基於EEG的方法。與之前關於語言理解的研究不同,這個模型專注於語言產生,並結合了深度學習框架和預訓練的字符級語言模型。儘管這項技術推進了非侵入式腦機介面的發展,但仍存在挑戰,包括實時操作、對鎖定病人的適應性以及MEG的不可穿戴性。未來的工作應該加強實時處理,探索基於想像的任務,並整合先進的MEG傳感器,為有溝通障礙的個體改善腦機介面鋪平道路。
查看這篇論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時在Twitter上關注我們,別忘了加入我們的80k+ ML SubReddit。
🚨 推薦閱讀 – LG AI研究發布NEXUS:一個先進的系統,整合代理AI系統和數據合規標準,以解決AI數據集中的法律問題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!