星期日, 25 5 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

加速 NVIDIA GPU 上的 LLM 推論與 ReDrafter

2024-12-18
in 機器學習與應用
0 0
0
加速 NVIDIA GPU 上的 LLM 推論與 ReDrafter
Share on FacebookShare on Twitter
Your Ad


加速大型語言模型(LLM)的推理是一個重要的機器學習研究問題,因為自回歸的標記生成計算成本高且相對緩慢,提升推理效率可以減少用戶的延遲。除了持續努力在蘋果公司 (Apple Inc.) 的晶片上加速推理外,我們最近在加速用於行業生產應用的 NVIDIA 顯示卡 (NVIDIA GPUs) 的 LLM 推理方面取得了重大進展。

今年早些時候,我們發布並開源了 Recurrent Drafter (ReDrafter),這是一種新穎的推測解碼方法,達到了最先進的性能。ReDrafter 使用了 RNN 草稿模型,並將束搜索與動態樹注意力結合,將開源模型的 LLM 標記生成速度提高了每次生成步驟最多 3.5 個標記,超越了之前的推測解碼技術。

每秒標記生成速度提升

圖 1:使用 NVIDIA TensorRT-LLM 和 ReDrafter 相較於自回歸的每秒標記生成速度提升。

將 ReDrafter 應用於加速 NVIDIA TensorRT-LLM

這項研究工作展示了強大的結果,但其更大的影響來自於在生產中應用以加速 LLM 推理。為了使這一進展適合 NVIDIA 顯示卡的生產使用,我們與 NVIDIA 合作,將 ReDrafter 整合到 NVIDIA TensorRT-LLM 推理加速框架中。

雖然 TensorRT-LLM 支持許多開源 LLM 和 Medusa 推測解碼方法,但 ReDrafter 的束搜索和樹注意力算法依賴於以前應用中從未使用過的運算元。為了實現 ReDrafter 的整合,NVIDIA 添加了新的運算元或暴露了現有的運算元,這大大提高了 TensorRT-LLM 處理複雜模型和解碼方法的能力。使用 NVIDIA 顯示卡的機器學習開發者現在可以輕鬆受益於 ReDrafter 的加速標記生成,應用於他們的生產 LLM 應用。

在對一個擁有數十億參數的生產模型進行基準測試時,使用 NVIDIA TensorRT-LLM 推理加速框架和 ReDrafter,我們發現生成的標記每秒速度提升了 2.7 倍(見圖 1)。這些基準結果顯示,這項技術可以顯著減少用戶可能經歷的延遲,同時使用更少的顯示卡並消耗更少的電力。

欲了解更多詳細資訊,請參閱 NVIDIA 開發者博客上的這篇文章。

結論

大型語言模型(LLMs)越來越多地用於推動生產應用,提升推理效率可以影響計算成本並減少用戶的延遲。隨著 ReDrafter 的新穎推測解碼方法整合到 NVIDIA TensorRT-LLM 框架中,開發者現在可以在 NVIDIA 顯示卡上享受更快的標記生成,應用於他們的生產 LLM 應用。

致謝

許多人為這個項目做出了貢獻,包括:Aonan Zhang、Xuanyu Zhang、Yunfei Cheng、Chong Wang、Yi Wang、Abhishek Udupa、Dhaval Doshi,以及我們在 NVIDIA 的合作夥伴。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: GPUllmNVIDIAReDrafter上的加速推論與
Previous Post

當麻省理工學院的跨學科NEET計畫完美契合 | 麻省理工學院新聞

Next Post

ProteinZen:一種使用機器學習的全原子蛋白質結構生成方法

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
ProteinZen:一種使用機器學習的全原子蛋白質結構生成方法

ProteinZen:一種使用機器學習的全原子蛋白質結構生成方法

反思2024:我們做對了什麼,我們做錯了什麼,以及我們學到了什麼

反思2024:我們做對了什麼,我們做錯了什麼,以及我們學到了什麼

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。