加速大型語言模型(LLM)的推理是一個重要的機器學習研究問題,因為自回歸的標記生成計算成本高且相對緩慢,提升推理效率可以減少用戶的延遲。除了持續努力在蘋果公司 (Apple Inc.) 的晶片上加速推理外,我們最近在加速用於行業生產應用的 NVIDIA 顯示卡 (NVIDIA GPUs) 的 LLM 推理方面取得了重大進展。
今年早些時候,我們發布並開源了 Recurrent Drafter (ReDrafter),這是一種新穎的推測解碼方法,達到了最先進的性能。ReDrafter 使用了 RNN 草稿模型,並將束搜索與動態樹注意力結合,將開源模型的 LLM 標記生成速度提高了每次生成步驟最多 3.5 個標記,超越了之前的推測解碼技術。
將 ReDrafter 應用於加速 NVIDIA TensorRT-LLM
這項研究工作展示了強大的結果,但其更大的影響來自於在生產中應用以加速 LLM 推理。為了使這一進展適合 NVIDIA 顯示卡的生產使用,我們與 NVIDIA 合作,將 ReDrafter 整合到 NVIDIA TensorRT-LLM 推理加速框架中。
雖然 TensorRT-LLM 支持許多開源 LLM 和 Medusa 推測解碼方法,但 ReDrafter 的束搜索和樹注意力算法依賴於以前應用中從未使用過的運算元。為了實現 ReDrafter 的整合,NVIDIA 添加了新的運算元或暴露了現有的運算元,這大大提高了 TensorRT-LLM 處理複雜模型和解碼方法的能力。使用 NVIDIA 顯示卡的機器學習開發者現在可以輕鬆受益於 ReDrafter 的加速標記生成,應用於他們的生產 LLM 應用。
在對一個擁有數十億參數的生產模型進行基準測試時,使用 NVIDIA TensorRT-LLM 推理加速框架和 ReDrafter,我們發現生成的標記每秒速度提升了 2.7 倍(見圖 1)。這些基準結果顯示,這項技術可以顯著減少用戶可能經歷的延遲,同時使用更少的顯示卡並消耗更少的電力。
欲了解更多詳細資訊,請參閱 NVIDIA 開發者博客上的這篇文章。
結論
大型語言模型(LLMs)越來越多地用於推動生產應用,提升推理效率可以影響計算成本並減少用戶的延遲。隨著 ReDrafter 的新穎推測解碼方法整合到 NVIDIA TensorRT-LLM 框架中,開發者現在可以在 NVIDIA 顯示卡上享受更快的標記生成,應用於他們的生產 LLM 應用。
致謝
許多人為這個項目做出了貢獻,包括:Aonan Zhang、Xuanyu Zhang、Yunfei Cheng、Chong Wang、Yi Wang、Abhishek Udupa、Dhaval Doshi,以及我們在 NVIDIA 的合作夥伴。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!