谷歌深度思維推出可微分快取增強：一種協處理器增強的方法以提升大型語言模型的推理與效率

大型語言模型 (LLMs) 在解決語言處理、數學和推理等複雜問題中扮演著重要角色。計算技術的改進旨在讓 LLMs 更有效地處理數據，生成更準確且符合上下文的回應。隨著這些模型變得越來越複雜，研究人員努力開發方法，以在固定的計算預算內運行，而不影響性能。

優化 LLMs 的一個主要挑戰是它們無法有效地在多個任務之間推理，或進行超出其預訓練架構的計算。目前改善模型性能的方法涉及在任務處理過程中生成中間步驟，這通常會導致延遲和計算效率低下。這一限制妨礙了它們執行複雜推理任務的能力，特別是那些需要較長依賴關係或更高預測準確性的任務。

研究人員探索了像是思維鏈 (Chain-of-Thought, CoT) 提示的方法，這種方法指導 LLMs 逐步推理。雖然在某些情況下有效，但 CoT 依賴於中間推理步驟的順序處理，導致計算時間變慢。還提出了 KV 快取壓縮以減少內存使用，但對推理能力的改善幫助不大。這些方法雖然有價值，但突顯了需要一種結合效率與增強推理能力的方法。

來自 Google DeepMind 的研究人員提出了一種名為可微快取增強 (Differentiable Cache Augmentation) 的方法。這項技術使用訓練過的協處理器來增強 LLM 的鍵值 (kv) 快取，豐富模型的內部記憶。這一創新之處在於在訓練協處理器的同時保持基本 LLM 不變，協處理器以非同步方式運行。研究人員設計這種方法以增強推理能力，同時不增加任務執行期間的計算負擔。

這種方法論圍繞著三個階段的過程。首先，凍結的 LLM 從輸入序列生成 kv 快取，封裝其內部表示。這個 kv 快取被傳遞給協處理器，協處理器使用額外的可訓練軟標記進行處理。這些標記不與特定單詞相關聯，而是作為生成潛在嵌入的抽象提示。一旦處理完成，增強的 kv 快取會被反饋回 LLM，使其能夠生成上下文豐富的輸出。這種非同步操作確保了協處理器的增強能有效應用，而不會延遲 LLM 的主要功能。訓練協處理器是使用語言建模損失進行的，專注於其參數，同時保持凍結 LLM 的完整性。這種有針對性的方法允許可擴展和有效的優化。

性能評估顯示出顯著的改善。這種方法在 Gemma-2 2B 模型上進行測試，在各種基準測試中取得了可觀的結果。例如，在推理密集的 GSM8K 數據集上，當使用 64 個潛在嵌入時，準確度提高了 10.05%。同樣，在相同配置下，MMLU 的性能提高了 4.70%。這些增強突顯了模型在複雜推理任務中的表現能力。此外，在多個標記位置觀察到了困惑度的降低。例如，當應用 64 個潛在嵌入時，位置一的困惑度降低了 3.94%，位置 32 的困惑度降低了 1.20%，顯示出模型在較長序列上的預測能力有所改善。

進一步分析顯示，增強的有效性隨著潛在嵌入數量的增加而增強。對於 GSM8K，準確度隨著額外嵌入的增加而逐步上升，從四個嵌入的 1.29% 到 64 個嵌入的最高改善 10.05%。在 ARC 和 MATH 等其他基準測試中也觀察到了類似的趨勢，顯示這種方法的廣泛適用性。研究人員確認，他們的方法在沒有針對特定任務的微調下，始終超越基準模型，顯示其穩健性和適應性。

這項工作代表了增強 LLM 推理能力的一個重要進展。通過引入外部協處理器來增強 kv 快取，來自 Google DeepMind 的研究人員創造了一種在保持計算效率的同時改善性能的方法。結果突顯了 LLM 在處理更複雜任務方面的潛力，為進一步探索模塊化增強和可擴展推理系統鋪平了道路。這一突破強調了在人工智慧領域持續創新的重要性，以滿足日益增長的推理密集型應用需求。

查看論文。這項研究的所有榮譽歸功於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。也別忘了加入我們的 60k+ ML SubReddit。

🚨 熱門消息：LG AI 研究發布 EXAONE 3.5：三個開源雙語前沿 AI 模型提供無與倫比的指令跟隨和長上下文理解，為生成 AI 卓越的全球領導地位鋪平道路……。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 谷歌深度思維推出可微分快取增強一種協處理器增強的方法以提升大型語言模型的推理與效率