在人類與人工智慧互動的革命性進展中,MindPortal的科學家們成功開發了MindSpeech,這是第一個能夠將持續想像的語音解碼成連貫文本的人工智慧模型,且不需要任何侵入性程序。這一進展標誌著人類與機器之間實現無縫、直觀溝通的重要里程碑。
開創性的研究:非侵入性思維解碼
這項研究由一組領先的專家進行,並發表在arXiv和ResearchGate上,展示了MindSpeech如何在受控測試條件下將複雜的自由形式思維解碼成文本。與之前需要侵入性手術或僅限於簡單記憶口語提示的努力不同,這項研究顯示人工智慧可以非侵入性地動態解讀來自大腦活動的想像語音。
研究人員使用了一個便攜式的高密度功能近紅外光譜系統 (fNIRS) 來監測大腦活動,參與者在想像不同主題的句子時進行測試。這種新穎的方法涉及一個“詞雲”任務,參與者被展示一些單詞,並被要求想像與這些單詞相關的句子。這個任務涵蓋了超過90%英語中最常用的單詞,為每位參與者創建了一個豐富的數據集,每位參與者的句子數量在433到827之間,平均每句長度為9.34個單詞。
利用先進的人工智慧:Llama2和大腦信號
MindSpeech的人工智慧部分由Llama2大型語言模型 (LLM) 驅動,這是一個複雜的文本生成工具,通過大腦信號生成的嵌入來指導。這些嵌入是通過將大腦信號與上下文輸入文本整合而創建的,使人工智慧能夠從想像的語音中生成連貫的文本。
研究使用了BLEU-1和BERT P等關鍵指標來評估人工智慧模型的準確性。結果令人印象深刻,顯示出四位參與者中有三位的解碼準確性有顯著提高。例如,參與者1的BLEU-1分數顯著提高至0.265,而隨機輸入的分數為0.224,p值為0.004,顯示出生成的文本與想像的思維緊密相關。
大腦活動映射和模型訓練
這項研究還映射了與想像語音相關的大腦活動,重點關注側顳皮層、背外側前額葉皮層 (DLPFC) 和視覺處理區域的活動。這些發現與先前的語音編碼研究一致,並強調了使用fNIRS進行非侵入性大腦監測的可行性。
訓練人工智慧模型涉及一個複雜的提示調整過程,將大腦信號轉換為嵌入,然後用於指導LLM的文本生成。這種方法使生成的句子不僅在語言上連貫,還在語義上與原始想像的語音相似。
邁向無縫的人類與人工智慧溝通
MindSpeech代表了人工智慧研究的一項突破性成就,首次展示了可以從大腦中非侵入性地解碼持續的想像語音。這一發展為與人工智慧系統進行更自然和直觀的溝通鋪平了道路,可能會改變人類與科技的互動方式。
這項研究的成功也突顯了該領域進一步發展的潛力。雖然這項技術尚未準備好廣泛使用,但這些發現為未來與人工智慧的心靈通訊成為現實提供了一個希望的曙光。
影響與未來研究
這項研究的影響範圍廣泛,從增強對於溝通障礙人士的輔助技術,到開啟人類與電腦互動的新領域。然而,研究也指出了未來的挑戰,例如提高人工智慧模型的靈敏度和普遍性,以及將其適應於更廣泛的用戶和應用。
未來的研究將專注於完善人工智慧算法,擴大參與者的數據集,並探索這項技術的實時應用。目標是創造一個真正無縫且通用的大腦-電腦界面,能夠將各種思維和想法解碼成文本或其他形式的溝通。
結論
MindSpeech是一項在人類與人工智慧溝通方面的開創性突破,展示了非侵入性大腦電腦接口的驚人潛力。
希望了解更多這家公司的人可以閱讀我們對MindPortal的首席執行官兼共同創始人Ekram Alam的訪談,討論MindPortal如何通過心理過程與大型語言模型進行互動。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!