來自微軟 (Microsoft)、麻薩諸塞大學阿默斯特分校 (University of Massachusetts, Amherst) 和馬里蘭大學 (University of Maryland, College Park) 的研究人員,正在研究檢索增強生成 (Retrieval Augmented Generation, RAG) 如何影響語言模型 (Language Models, LMs) 的推理和事實準確性。這項研究的重點是語言模型在回答事實問題時,是否更依賴 RAG 提供的外部上下文,而不是它們的內部記憶。
目前提高語言模型事實準確性的方法,通常涉及增強模型的內部參數或使用外部檢索系統,在推理過程中提供額外的上下文。像 ROME 和 MEMIT 的技術,專注於編輯模型的內部參數來更新知識。然而,對於這些模型如何平衡使用內部(參數)知識和外部(非參數)上下文在 RAG 中的情況,研究仍然有限。
研究人員提出了一種機械性檢查 RAG 流程的方法,以確定語言模型在回答事實問題時,依賴外部上下文與內部記憶的程度。他們使用兩個先進的語言模型,LLaMa-2 和 Phi-2,進行分析,並採用因果中介分析 (Causal Mediation Analysis)、注意力貢獻 (Attention Contributions) 和注意力剔除 (Attention Knockouts) 等方法。
研究人員利用三種關鍵技術來管理 RAG 下語言模型的內部運作:
1. 因果追蹤 (Causal tracing) 確定模型中哪些隱藏狀態對事實預測至關重要。通過比較一個被破壞的運行(故意改變部分輸入)與一個正常運行和一個恢復運行(將正常激活重新引入被破壞的運行),研究人員測量間接效應 (Indirect Effect, IE),以確定特定隱藏狀態的重要性。
2. 注意力貢獻 (Attention contributions) 研究主題標記與輸出中最後一個標記之間的注意力權重。這有助於分析每個標記獲得多少注意力,以了解模型是否更依賴 RAG 提供的外部上下文或其內部知識。
3. 注意力剔除 (Attention knockouts) 涉及將關鍵注意力權重設置為負無限大,以阻止特定標記之間的信息流。通過觀察當這些注意力權重被剔除時預測質量的下降,研究人員可以識別哪些連接對準確預測至關重要。
結果顯示,在 RAG 上下文的影響下,LLaMa-2 和 Phi-2 模型對其內部參數記憶的依賴顯著減少。當 RAG 上下文存在時,查詢中主題標記的平均間接效應顯著降低。此外,最後一個標記的殘餘流從上下文中的屬性標記獲得了更多豐富的信息,而不是來自查詢中的主題標記。注意力貢獻和剔除進一步確認了模型在事實預測中更重視外部上下文,而非內部記憶。然而,這種方法的具體運作方式尚不清楚。
總結來說,這項研究表明,語言模型在回答事實問題時,表現出一種「捷徑」行為,重度依賴 RAG 提供的外部上下文,而非其內部參數記憶。通過機械性分析語言模型如何處理和優先考慮信息,研究人員提供了對參數和非參數知識在檢索增強生成中的相互作用的寶貴見解。這項研究強調了理解這些動態的重要性,以提高模型在實際應用中的表現和可靠性。
查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們。
加入我們的 Telegram 頻道和 LinkedIn 群組。
如果你喜歡我們的工作,你會喜歡我們的電子報。
別忘了加入我們的 44k+ 機器學習 SubReddit。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!