解碼隱藏的計算動態：一種新穎的機器學習框架，用於理解大型語言模型的表徵

在快速發展的機器學習和人工智慧領域，了解變壓器模型中的基本表示已成為一個重要的研究挑戰。研究人員正在努力理解變壓器所代表的內容——它們是統計模擬、世界模型，還是更複雜的東西。核心的直覺是，變壓器可能捕捉到數據生成過程中的隱藏結構動態，從而能夠進行複雜的下一個標記預測。這一觀點得到了許多知名人工智慧研究者的支持，他們認為準確的標記預測意味著對潛在生成現實的更深刻理解。然而，傳統方法缺乏一個強大的框架來分析這些計算表示。

現有的研究探索了變壓器模型內部表示和計算限制的各個方面。“未來視角”框架揭示了變壓器的隱藏狀態包含有關多個未來標記的信息，這表明它們具有類似信念狀態的表示。研究人員還在像奧賽羅（Othello）這樣的序列遊戲中研究變壓器的表示，將這些表示解釋為遊戲狀態的潛在“世界模型”。實證研究顯示，變壓器在圖形路徑尋找和隱馬可夫模型（HMMs）中的算法任務限制。此外，貝葉斯預測模型試圖提供對狀態機表示的見解，並將其與計算力學中的混合狀態表示方法聯繫起來。

來自PIBBSS、皮策學院（Pitzer College）和史克里普斯學院（Scripps College）以及倫敦大學學院（University College London）的研究人員提出了一種新方法，以理解大型語言模型（LLMs）在下一個標記預測過程中的計算結構。他們的研究重點在於揭示數據生成過程隱藏狀態的信念更新的元動態。研究發現，信念狀態在變壓器的殘差流中以線性方式表示，儘管預測的信念狀態幾何顯示出複雜的分形結構。此外，該研究探討了這些信念狀態在最終殘差流中的表示，或分佈在多個層流中。

所提出的方法論使用詳細的實驗方法來分析在HMM生成數據上訓練的變壓器模型。研究人員專注於檢查不同層和上下文窗口位置的殘差流激活，創建了一個全面的激活向量數據集。對於每個輸入序列，該框架確定相應的信念狀態及其在生成過程隱藏狀態上的概率分佈。研究人員利用線性回歸來建立殘差流激活與信念狀態概率之間的仿射映射。這一映射是通過最小化預測信念狀態與真實信念狀態之間的均方誤差來實現的，從而得到一個權重矩陣，將殘差流表示投影到概率簡單形上。

這項研究對變壓器的計算結構提供了重要的見解。線性回歸分析揭示了在64維殘差激活中存在一個與信念狀態的預測分形結構非常接近的二維子空間。這一發現提供了有力的證據，表明在具有隱藏生成結構的數據上訓練的變壓器學會了在其殘差流中表示信念狀態幾何。實證結果顯示，不同過程中信念狀態幾何與下一個標記預測之間存在不同的相關性。對於RRXOR過程，信念狀態幾何顯示出強相關性（R² = 0.95），顯著超過下一個標記預測的相關性（R² = 0.31）。

總結來說，研究人員提出了一個理論框架，以建立訓練數據結構與變壓器神經網絡激活的幾何特性之間的直接聯繫。通過驗證殘差流中信念狀態幾何的線性表示，該研究揭示了變壓器發展出比簡單的下一個標記預測更複雜的預測表示。這項研究為增強模型的可解釋性、可信度和潛在改進提供了一條有希望的途徑，具體化了計算結構與訓練數據之間的關係。它還彌合了大型語言模型的高級行為能力與對其內部表示動態的基本理解之間的關鍵差距。

新聞來源

本文由 AI 台灣使用 AI 編撰，內容僅供參考，請自行進行事實查核。加入 AI TAIWAN Google News，隨時掌握最新 AI 資訊！

Tags: 解碼隱藏的計算動態一種新穎的機器學習框架用於理解大型語言模型的表徵