評估大型語言模型中的大腦對齊：對語言能力和神經表徵的洞察

大型語言模型（LLMs）在運作上與人類的語言網絡神經活動有著驚人的相似之處，但具體哪些語言特性使這些模型能夠模擬大腦的運作，仍然不太清楚。了解使語言理解和溝通成為可能的認知機制，是神經科學的一個重要目標。大腦的語言網絡（LN）是一組位於左側的前額葉和顳葉區域，對處理語言輸入至關重要。最近的機器學習進展使得大型語言模型（LLMs）能夠通過預測下一個單詞來訓練，成為研究語言網絡功能的有希望的計算模型。在神經影像學和電生理學實驗中，當這些模型接觸到與人類相同的語言刺激時，它們能解釋顯著的神經反應變異性，進一步強調了它們在認知神經科學研究中的重要性。

對模型與大腦對齊的研究表明，某些人工神經網絡編碼的表示方式與人類大腦中的表示相似。這種相似性最初是在視覺研究中被發現，隨後擴展到聽覺和語言處理。研究顯示，即使是未經訓練的神經網絡也能與大腦活動高度對齊，這意味著某些架構特性使它們在認知上與人類相似，而不依賴於經驗訓練。對不同網絡架構的歸納偏見的研究強調，隨機初始化的模型並不是隨意的函數，而是捕捉到感官和語言處理中固有的基本結構模式。這些見解加深了我們對語言神經基礎的理解，並提供了改進大型語言模型以更好地模擬人類認知的潛在途徑。

瑞士聯邦理工學院（EPFL）、麻省理工學院（MIT）和喬治亞理工學院（Georgia Tech）的研究人員分析了八個模型大小的34個訓練檢查點，以檢查大腦對齊與語言能力之間的關係。他們的研究結果表明，大腦對齊與正式語言能力（即對語言規則的知識）之間的相關性比與功能性能力（涉及推理和世界知識）更強。雖然功能性能力隨著訓練進一步發展，但其與大腦對齊的關聯性卻在減弱。此外，控制特徵大小後，模型大小並不能預測大腦對齊。他們的結果表明，當前的大腦對齊基準仍然未飽和，強調了改進大型語言模型以更好地對齊人類語言處理的機會。

這項研究使用多樣的神經影像數據集來評估語言模型中的大腦對齊，這些數據集根據模態、上下文長度和刺激呈現（聽覺/視覺）進行分類。分析遵循功能定位的方法，識別語言選擇性神經單元。大腦對齊使用脊回歸和皮爾森相關性進行評估，而跨受試者的一致性估計則考慮了噪聲。正式能力使用BLIMP和SYNTAXGYM進行測試，而功能能力則通過推理和世界知識基準進行評估。結果顯示，上下文化對對齊有影響，未經訓練的模型仍保留部分對齊。這項研究強調了穩健的評估指標和泛化測試，以確保不同模型之間的有意義比較。

儘管未經訓練的模型的對齊分數低於預訓練模型（約50%），但仍表現出顯著的大腦對齊，超過隨機的標記序列。這種對齊來自於歸納偏見，其中基於序列的模型（GRU、LSTM、變壓器）顯示出比基於標記的模型（MLP、線性模型）更強的對齊。時間整合，特別是通過位置編碼，扮演了重要角色。大腦對齊在訓練早期達到高峰（約8B標記），並與正式語言能力相關，而不是功能理解。較大的模型不一定能改善對齊。過度訓練會降低行為對齊，這表明模型在超越人類能力時，與人類處理的差異增大，依賴於不同的機制。

總之，這項研究檢查了大型語言模型在訓練過程中大腦對齊的演變，顯示它與正式語言能力密切相關，而功能能力則獨立發展。大腦對齊在早期達到高峰，這表明人類的語言網絡主要編碼語法和組合結構，而不是更廣泛的認知功能。模型大小並不預測對齊；架構偏見和訓練動態在其中扮演了關鍵角色。這項研究還確認了大腦對齊基準仍然未飽和，這表明在建模人類語言處理方面仍有改進的空間。這些發現加深了我們對大型語言模型與生物語言處理之間關係的理解，強調了正式而非功能性語言結構的重要性。

查看這篇論文。這項研究的所有功勞都歸於這個項目的研究人員。此外，隨時在Twitter上關注我們，別忘了加入我們的80k+機器學習SubReddit。

🚨 介紹Parlant：一個以大型語言模型為首的對話式人工智慧框架，旨在為開發者提供對其AI客服代理的控制和精確度，利用行為指導和運行時監督。🔧 🎛️ 它使用易於使用的命令行界面（CLI）📟 和Python及TypeScript的本地客戶端SDK📦進行操作。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 評估大型語言模型中的大腦對齊對語言能力和神經表徵的洞察