大型語言模型 (LLMs) 改變了文本生成的能力,但它們面臨著一個重要的挑戰,就是「幻覺」問題,這意味著它們會生成事實上不正確的信息,特別是在長篇內容中。研究人員開發了一種稱為檢索增強生成 (RAG) 的技術來解決這個問題,這種技術通過將來自可靠來源的相關文件納入輸入提示中來提高事實準確性。雖然 RAG 顯示出潛力,但各種迭代提示方法如 FLARE 和 Self-RAG 也出現了,進一步提高準確性。然而,這些方法仍然受到傳統 RAG 架構的限制,其中檢索的上下文是唯一整合到輸入字符串中的在線反饋形式。
傳統的文本生成方法通過幾種關鍵方法進行了演變,以提高事實準確性和上下文相關性。迭代檢索方法將回應分段生成,每個段落都利用新檢索的信息。ITER-RETGEN 就是這種方法的例子,它使用先前的輸出來形成後續知識檢索的查詢。像 FLARE 和 DRAGIN 這樣的自適應檢索系統通過實施逐句生成和基於信心的驗證來改進這個過程。此外,長上下文 LLMs 探索了基於記憶的方法,如 Memory3,這種方法使用 KV 緩存來編碼知識片段作為記憶。其他系統如記憶變壓器 (Memorizing Transformers) 和 LongMem 也試驗了記憶檢索機制。
Meta FAIR 的一組研究人員提出了 EWE(明確工作記憶),這是一種創新的 AI 方法,通過實施動態工作記憶系統來提高長篇文本生成的事實準確性。這個系統獨特地納入了來自外部資源的實時反饋,並使用在線事實檢查機制不斷刷新其記憶。其關鍵創新在於它能夠在生成過程中檢測和糾正虛假聲明,而不僅僅依賴於預先檢索的信息。此外,EWE 的有效性通過對四個尋求事實的長篇生成數據集進行全面測試顯示出顯著的事實性指標改善,同時保持回應質量。
EWE 的架構代表了一個多功能的框架,可以適應各種配置,同時保持效率。在其核心,EWE 利用一個多單元記憶模塊,可以在生成過程中動態更新。這種設計使 EWE 能夠在不同模式下運行,從使用單一記憶單元的簡單 RAG 到實施逐句驗證的 FLARE 類功能。與 Memory3 等類似方法不同,EWE 不需要預先編碼所有段落,並且在生成過程中具有動態記憶更新的獨特特點。這種靈活性使得通過不同的記憶單元並行處理不同形式的外部反饋成為可能。
實驗結果顯示,在多個數據集上事實準確性有顯著改善。使用 Llama-3.1 70B 基礎模型,檢索增強始終提高事實性指標。雖然競爭方法的結果參差不齊,Nest 只在傳記數據集上表現良好,而 DRAGIN 的表現與基本檢索增強相似,但 EWE 在所有數據集上達到了最高的 VeriScore F1。CoVe 雖然精確度高,但生成的回應較短,導致回憶性能較低。EWE 的表現與基礎模型相當,在有用性方面的勝率約為 50%,這是通過 AlpacaEval 測量的。
總結來說,Meta FAIR 的一組研究人員推出了 EWE(明確工作記憶),這在解決長篇文本生成中的事實準確性挑戰方面代表了一個重要的進展。這個系統的創新工作記憶機制,通過基於檢索和事實檢查反饋的定期暫停和記憶刷新運作,顯示出生成更可靠的 AI 內容的潛力。這項研究確定了關鍵成功因素,包括及時的記憶更新、專注的注意機制和高質量的檢索數據存儲,為未來的事實文本生成系統的發展鋪平了道路。
查看論文。這項研究的所有功勞都歸功於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,並加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 60k+ ML SubReddit。
🚨 免費即將舉行的 AI 網絡研討會(2025 年 1 月 15 日):使用合成數據和評估智能提升 LLM 準確性——參加這個網絡研討會,獲取提升 LLM 模型性能和準確性的可行見解,同時保護數據隱私。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!