DeepSeek-R1 是一個開放的模型,擁有最先進的推理能力。與其直接給出答案,像 DeepSeek-R1 這樣的推理模型會對問題進行多次推理,透過思考鏈、共識和搜尋方法來產生最佳答案。
這種使用推理來找到最佳答案的過程稱為測試時擴展。DeepSeek-R1 是這個擴展法則的完美例子,顯示了加速計算對於代理 AI 推理需求的重要性。
當模型可以不斷“思考”問題時,它們會產生更多的輸出標記和更長的生成周期,因此模型的質量會持續提升。大量的測試時計算對於實現即時推理和更高質量的回應至關重要,這需要更大的推理部署。
R1 在需要邏輯推理、數學、編碼和語言理解的任務中提供了領先的準確性,同時也具備高效的推理能力。
為了幫助開發者安全地實驗這些能力並建立自己的專用代理,擁有6710億參數的 DeepSeek-R1 模型現在可以在 build.nvidia.com 上作為 NVIDIA NIM 微服務預覽使用。DeepSeek-R1 NIM 微服務在單個 NVIDIA HGX H200 系統上可以每秒提供高達 3,872 個標記。
開發者可以測試和實驗應用程式介面 (API),這個 API 預計將很快作為可下載的 NIM 微服務提供,成為 NVIDIA AI Enterprise 軟體平台的一部分。
DeepSeek-R1 NIM 微服務簡化了部署,支持行業標準的 API。企業可以通過在其首選的加速計算基礎設施上運行 NIM 微服務來最大化安全性和數據隱私。使用 NVIDIA AI Foundry 和 NVIDIA NeMo 軟體,企業還能為專用的 AI 代理創建定制的 DeepSeek-R1 NIM 微服務。
DeepSeek-R1 — 測試時擴展的完美例子
DeepSeek-R1 是一個大型的專家混合模型 (MoE)。它擁有驚人的6710億參數,是許多其他流行開源大型語言模型的10倍,支持長達128,000個標記的輸入上下文長度。該模型每層使用了極多的專家,每層有256個專家,每個標記會同時被路由到八個不同的專家進行評估。
要為 R1 提供即時答案,需要許多高性能的 GPU,並通過高帶寬和低延遲的通信將提示標記路由到所有專家進行推理。結合 NVIDIA NIM 微服務中的軟體優化,單台配備八個 H200 GPU 的伺服器,通過 NVLink 和 NVLink Switch 連接,可以以每秒高達 3,872 個標記的速度運行完整的6710億參數 DeepSeek-R1 模型。這種吞吐量得益於在每層使用 NVIDIA Hopper 架構的 FP8 變壓器引擎,以及 900 GB/s 的 NVLink 帶寬用於 MoE 專家之間的通信。
要充分發揮 GPU 的每秒浮點運算性能 (FLOPS) 對於即時推理至關重要。下一代 NVIDIA Blackwell 架構將為像 DeepSeek-R1 這樣的推理模型的測試時擴展提供巨大的提升,搭載第五代 Tensor Cores,能提供高達 20 petaflops 的峰值 FP4 計算性能,並有一個專門針對推理優化的 72-GPU NVLink 域。
立即開始使用 DeepSeek-R1 NIM 微服務
開發者可以在 build.nvidia.com 上體驗 DeepSeek-R1 NIM 微服務。觀看它的運作方式:
使用 NVIDIA NIM,企業可以輕鬆部署 DeepSeek-R1,並確保獲得代理 AI 系統所需的高效能。
請參閱有關軟體產品資訊的通知。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!