DeepSeek-R1 現已上線，搭載 NVIDIA NIM

DeepSeek-R1 是一個開放的模型，擁有最先進的推理能力。與其直接給出答案，像 DeepSeek-R1 這樣的推理模型會對問題進行多次推理，透過思考鏈、共識和搜尋方法來產生最佳答案。

這種使用推理來找到最佳答案的過程稱為測試時擴展。DeepSeek-R1 是這個擴展法則的完美例子，顯示了加速計算對於代理 AI 推理需求的重要性。

當模型可以不斷“思考”問題時，它們會產生更多的輸出標記和更長的生成周期，因此模型的質量會持續提升。大量的測試時計算對於實現即時推理和更高質量的回應至關重要，這需要更大的推理部署。

R1 在需要邏輯推理、數學、編碼和語言理解的任務中提供了領先的準確性，同時也具備高效的推理能力。

為了幫助開發者安全地實驗這些能力並建立自己的專用代理，擁有6710億參數的 DeepSeek-R1 模型現在可以在 build.nvidia.com 上作為 NVIDIA NIM 微服務預覽使用。DeepSeek-R1 NIM 微服務在單個 NVIDIA HGX H200 系統上可以每秒提供高達 3,872 個標記。

開發者可以測試和實驗應用程式介面 (API)，這個 API 預計將很快作為可下載的 NIM 微服務提供，成為 NVIDIA AI Enterprise 軟體平台的一部分。

DeepSeek-R1 NIM 微服務簡化了部署，支持行業標準的 API。企業可以通過在其首選的加速計算基礎設施上運行 NIM 微服務來最大化安全性和數據隱私。使用 NVIDIA AI Foundry 和 NVIDIA NeMo 軟體，企業還能為專用的 AI 代理創建定制的 DeepSeek-R1 NIM 微服務。

DeepSeek-R1 — 測試時擴展的完美例子

DeepSeek-R1 是一個大型的專家混合模型 (MoE)。它擁有驚人的6710億參數，是許多其他流行開源大型語言模型的10倍，支持長達128,000個標記的輸入上下文長度。該模型每層使用了極多的專家，每層有256個專家，每個標記會同時被路由到八個不同的專家進行評估。

要為 R1 提供即時答案，需要許多高性能的 GPU，並通過高帶寬和低延遲的通信將提示標記路由到所有專家進行推理。結合 NVIDIA NIM 微服務中的軟體優化，單台配備八個 H200 GPU 的伺服器，通過 NVLink 和 NVLink Switch 連接，可以以每秒高達 3,872 個標記的速度運行完整的6710億參數 DeepSeek-R1 模型。這種吞吐量得益於在每層使用 NVIDIA Hopper 架構的 FP8 變壓器引擎，以及 900 GB/s 的 NVLink 帶寬用於 MoE 專家之間的通信。

要充分發揮 GPU 的每秒浮點運算性能 (FLOPS) 對於即時推理至關重要。下一代 NVIDIA Blackwell 架構將為像 DeepSeek-R1 這樣的推理模型的測試時擴展提供巨大的提升，搭載第五代 Tensor Cores，能提供高達 20 petaflops 的峰值 FP4 計算性能，並有一個專門針對推理優化的 72-GPU NVLink 域。