今年,各行各業的企業都在推出人工智慧(AI)服務。對於微軟(Microsoft)、甲骨文(Oracle)、Perplexity、Snap 和其他數百家領先公司來說,使用 NVIDIA 的 AI 推理平台——這是一個由世界級矽晶片、系統和軟體組成的完整堆疊——是提供高效能和低延遲推理、提升使用者體驗並降低成本的關鍵。
NVIDIA 在推理軟體優化和 Hopper 平台的進展,幫助各行各業提供最新的生成式 AI 模型,提供優秀的使用者體驗,同時優化總擁有成本。Hopper 平台還幫助推理工作負載的能源效率提高了多達 15 倍,與之前的世代相比。
AI 推理非常困難,因為它需要許多步驟來達到效能和使用者體驗之間的平衡。
但其根本目標很簡單:以更低的成本生成更多的標記。標記代表大型語言模型(LLM)系統中的單詞,而 AI 推理服務通常對每生成一百萬個標記收費,因此這個目標提供了最明顯的 AI 投資和每個任務使用的能源回報。
完整堆疊的軟體優化是提高 AI 推理效能和實現這一目標的關鍵。
具成本效益的使用者吞吐量
企業常常面臨平衡推理工作負載的效能和成本的挑戰。雖然某些客戶或使用案例可以使用現成的或託管的模型,但其他情況可能需要定制。NVIDIA 的技術簡化了模型的部署,同時優化了 AI 推理工作負載的成本和效能。此外,客戶可以根據他們選擇部署的模型體驗靈活性和可定制性。
NVIDIA NIM 微服務、NVIDIA Triton 推理伺服器和 NVIDIA TensorRT 庫是 NVIDIA 提供的推理解決方案,以滿足使用者的需求:
NVIDIA NIM 推理微服務是預先打包並針對性能優化的,適合在任何基礎設施上快速部署 AI 基礎模型——雲端、資料中心、邊緣或工作站。
NVIDIA Triton 推理伺服器是公司最受歡迎的開源專案之一,允許使用者打包和提供任何模型,無論其訓練所使用的 AI 框架是什麼。
NVIDIA TensorRT 是一個高效能的深度學習推理庫,包含運行時和模型優化,以提供低延遲和高吞吐量的推理,適用於生產應用。
在所有主要的雲端市場上,NVIDIA AI 企業軟體平台包含所有這些解決方案,並提供企業級的支援、穩定性、可管理性和安全性。
使用不依賴於框架的 NVIDIA AI 推理平台,公司在生產力、開發和基礎設施及設置成本上節省了開支。使用 NVIDIA 技術還可以通過幫助公司避免停機和詐騙交易、提高電子商務購物轉換率和創造新的 AI 驅動收入來源來提升業務收入。
雲端基礎的 LLM 推理
為了簡化 LLM 的部署,NVIDIA 與每個主要的雲端服務提供商密切合作,確保 NVIDIA 推理平台可以在雲端無縫部署,幾乎不需要或不需要任何程式碼。NVIDIA NIM 與雲原生服務集成,如:
亞馬遜 SageMaker AI、亞馬遜 Bedrock Marketplace、亞馬遜彈性 Kubernetes 服務
谷歌雲的 Vertex AI、谷歌 Kubernetes 引擎
微軟 Azure AI Foundry 即將推出、Azure Kubernetes 服務
甲骨文雲基礎設施的資料科學工具、甲骨文雲基礎設施 Kubernetes 引擎
此外,對於定制的推理部署,NVIDIA Triton 推理伺服器與所有主要雲端服務提供商深度集成。
例如,使用 OCI 資料科學平台,部署 NVIDIA Triton 只需在模型部署期間在命令行參數中打開開關,即可立即啟動 NVIDIA Triton 推理端點。
同樣,使用 Azure 機器學習,使用者可以通過 Azure 機器學習工作室進行無代碼部署,或通過 Azure 機器學習 CLI 進行全代碼部署。AWS 提供從 SageMaker Marketplace 一鍵部署 NVIDIA NIM 的選項,而谷歌雲則在谷歌 Kubernetes 引擎(GKE)上提供一鍵部署選項。谷歌雲在谷歌 Kubernetes 引擎上提供一鍵部署選項,而 AWS 在其 AWS 深度學習容器上提供 NVIDIA Triton。
NVIDIA AI 推理平台還使用流行的通信方法來提供 AI 預測,自動調整以適應雲端基礎設施中使用者不斷增長和變化的需求。
從加速 LLM 到增強創意工作流程和轉變協議管理,NVIDIA 的 AI 推理平台正在各行各業產生實際影響。了解合作和創新如何使以下組織達到新的效率和可擴展性。
每月處理 4 億次搜索查詢的 Perplexity AI
Perplexity AI 是一個 AI 驅動的搜索引擎,每月處理超過 4.35 億次查詢。每次查詢代表多個 AI 推理請求。為了滿足這一需求,Perplexity AI 團隊轉向 NVIDIA H100 GPU、Triton 推理伺服器和 TensorRT-LLM。
支持超過 20 個 AI 模型,包括 Llama 3 的變體,如 8B 和 70B,Perplexity 處理多種任務,如搜索、摘要和問答。通過使用較小的分類器模型將任務路由到由 NVIDIA Triton 管理的 GPU 節點,該公司在嚴格的服務水平協議下提供成本效益高、反應迅速的服務。
通過模型並行性,將 LLM 分割到多個 GPU 上,Perplexity 實現了三倍的成本降低,同時保持低延遲和高準確性。這一最佳實踐框架展示了 IT 團隊如何滿足不斷增長的 AI 需求,優化總擁有成本並與 NVIDIA 加速計算無縫擴展。
使用 Recurrent Drafter (ReDrafter) 降低響應時間
開源研究的進展正在幫助民主化 AI 推理。最近,NVIDIA 將由蘋果公司(Apple)發表的開源方法 ReDrafter 整合到 NVIDIA TensorRT-LLM 中。
ReDrafter 使用較小的“草稿”模組來並行預測標記,然後由主模型進行驗證。這一技術顯著降低了 LLM 的響應時間,特別是在流量較低的時期。
使用 Docusign 轉變協議管理
Docusign 是數位協議管理的領導者,轉向 NVIDIA 來強化其智能協議管理平台。Docusign 在全球擁有超過 150 萬客戶,需要優化吞吐量並管理基礎設施費用,同時提供 AI 驅動的見解。
NVIDIA Triton 提供了所有框架的統一推理平台,加速了上市時間,並通過將協議數據轉化為可行的見解來提高生產力。Docusign 採用 NVIDIA 推理平台,突顯了可擴展 AI 基礎設施對客戶體驗和運營效率的積極影響。
“NVIDIA Triton 讓我們的生活更輕鬆,”Docusign 的高級產品經理 Alex Zakhvatov 說。“我們不再需要為我們的 AI 模型部署定制的、特定框架的推理伺服器。我們利用 Triton 作為所有 AI 框架的統一推理伺服器,還用它來識別正確的生產場景,以優化成本和性能節省的工程努力。”
提升電信客戶服務的 Amdocs
Amdocs 是通訊和媒體提供商的軟體和服務領導者,建立了 amAIz,一個針對電信業的生成式 AI 平台,這是一個開放、安全、具成本效益且不依賴於 LLM 的框架。Amdocs 使用 NVIDIA DGX Cloud 和 NVIDIA AI 企業軟體,提供基於商業可用 LLM 以及領域適應模型的解決方案,使服務提供商能夠構建和部署企業級的生成式 AI 應用。
使用 NVIDIA NIM,Amdocs 在數據預處理中將已部署用例的標記消耗減少了多達 60%,在推理中減少了 40%,在不同因素和使用量的情況下提供相同的準確性,並顯著降低每個標記的成本。這一合作還將查詢延遲減少了約 80%,確保最終用戶體驗接近實時響應。這一加速提升了商業、客戶服務、運營等各方面的用戶體驗。
使用 Snap 的 AI 變革零售業
得益於 Snap 的 Screenshop 功能,購物完美服裝變得從未如此簡單。這個集成在 Snapchat 中的 AI 驅動工具幫助使用者找到照片中看到的時尚物品。NVIDIA Triton 在啟用 Screenshop 的管道中發揮了關鍵作用,該管道使用多個框架(包括 TensorFlow 和 PyTorch)處理圖像。

通過將其管道整合到單一的推理服務平台上,Snap 顯著減少了開發時間和成本,同時確保了更新模型的無縫部署。結果是由 AI 驅動的流暢用戶體驗。
“我們不想為我們的 Screenshop 管道部署定制的推理服務平台,TensorFlow 使用 TF-serving 平台,PyTorch 使用 TorchServe 平台,”Snap 的機器學習工程師 Ke Ma 解釋說。“Triton 的框架無關設計和對多個後端(如 TensorFlow、PyTorch 和 ONNX)的支持非常吸引人。它讓我們能夠使用單一的推理服務平台提供我們的端到端管道,這樣就減少了我們的推理服務成本和更新生產模型所需的開發者工作日數。”
在成功推出 NVIDIA Triton 上的 Screenshop 服務後,Ma 和他的團隊轉向 NVIDIA TensorRT 進一步提升系統性能。通過在編譯過程中應用預設的 NVIDIA TensorRT 設置,Screenshop 團隊立即看到了吞吐量的三倍增長,預計將帶來驚人的 66% 成本降低。
以 AI 賦能的財務自由 Wealthsimple
Wealthsimple 是一家管理超過 300 億加元資產的加拿大投資平台,重新定義了其機器學習的方法,採用了 NVIDIA 的 AI 推理平台。通過標準化其基礎設施,Wealthsimple 將模型交付時間從幾個月縮短到不到 15 分鐘,消除了停機時間,並使團隊能夠提供機器學習作為服務。
通過採用 NVIDIA Triton 並通過 AWS 運行其模型,Wealthsimple 實現了 99.999% 的正常運行時間,確保每年超過 1.45 億次交易的無縫預測。這一轉型突顯了強大的 AI 基礎設施如何徹底改變金融服務。
“NVIDIA 的 AI 推理平台是我們組織機器學習成功故事的關鍵,徹底改變了我們的模型部署,減少了停機時間,使我們能夠為客戶提供無與倫比的服務,”Wealthsimple 的高級軟體開發經理 Mandy Gu 說。
提升創意工作流程的 Let’s Enhance
AI 驅動的圖像生成已經改變了創意工作流程,並可以應用於企業用例,如創建個性化內容和為營銷視覺創造富有想像力的背景。雖然擴散模型是提升創意工作流程的強大工具,但這些模型的計算成本可能很高。
為了優化其使用 Stable Diffusion XL 模型的工作流程,創新 AI 初創公司 Let’s Enhance 選擇了 NVIDIA 的 AI 推理平台。

Let’s Enhance 的最新產品 AI Photoshoot 使用 SDXL 模型將普通產品照片轉換為電子商務網站和營銷活動的美麗視覺資產。
借助 NVIDIA Triton 對各種框架和後端的強大支持,以及其動態批處理功能,Let’s Enhance 能夠將 SDXL 模型無縫集成到現有的 AI 管道中,並最小化工程團隊的參與,讓他們能夠專注於研究和開發工作。
加速 OCI 的雲端視覺 AI
甲骨文雲基礎設施(OCI)整合了 NVIDIA Triton 以支持其視覺 AI 服務,將預測吞吐量提高了多達 76%,並將延遲降低了 51%。這些優化改善了客戶在自動收費和全球企業發票識別等應用中的體驗。
憑藉 Triton 的硬體無關能力,OCI 擴展了其 AI 服務組合,提供強大而高效的解決方案,遍及其全球數據中心。
“我們的 AI 平台對客戶來說是 Triton 友好的,”OCI 的產品管理總監 Tzvi Keisar 說,他負責甲骨文內部和外部用戶的機器學習服務。
微軟的實時情境智能和搜索效率
Azure 提供了由 NVIDIA AI 驅動和優化的最廣泛的虛擬機選擇之一。這些虛擬機涵蓋了多代 NVIDIA GPU,包括 NVIDIA Blackwell 和 NVIDIA Hopper 系統。
基於這一豐富的工程合作歷史,NVIDIA GPU 和 NVIDIA Triton 現在幫助加速 Microsoft 365 的 Copilot 中的 AI 推理。Microsoft 365 Copilot 作為 Windows PC 上的專用物理鍵,結合了 LLM 的強大功能和專有企業數據,提供實時情境智能,幫助使用者提升創造力、生產力和技能。
微軟必應(Microsoft Bing)也使用 NVIDIA 推理解決方案來解決延遲、成本和速度等挑戰。通過整合 NVIDIA TensorRT-LLM 技術,微軟顯著改善了其深度搜索功能的推理性能,該功能為優化的網頁結果提供支持。
微軟提供的深度搜索演示
微軟必應視覺搜索使用照片作為查詢,幫助世界各地的人們找到內容。這一能力的核心是微軟的 TuringMM 視覺嵌入模型,將圖像和文本映射到共享的高維空間。由於它在網路上處理數十億張圖像,因此性能至關重要。
微軟必應使用 NVIDIA TensorRT 和 NVIDIA 加速庫(包括 CV-CUDA 和 nvImageCodec)優化了 TuringMM 管道。這些努力使速度提高了 5.13 倍,並顯著降低了總擁有成本。
通過硬體創新釋放 AI 推理的全部潛力
提高 AI 推理工作負載的效率是一個多方面的挑戰,需要在硬體和軟體上進行創新技術。
NVIDIA GPU 在 AI 使能方面處於前沿,為 AI 模型提供高效能和效率。它們也是最節能的:在過去十年中,NVIDIA 在 NVIDIA Blackwell 架構上的加速計算將每個標記生成所需的能源減少了 100,000 倍,適用於一兆參數的 AI 模型推理。
NVIDIA Grace Hopper 超級晶片結合了 NVIDIA Grace CPU 和 Hopper GPU 架構,使用 NVIDIA NVLink-C2C,為各行各業提供了顯著的推理性能提升。
通過 Meta Andromeda 的行業領先機器學習釋放廣告商價值
Meta Andromeda 使用超級晶片來高效且高效能地檢索個性化廣告。通過創建具有更高計算複雜性和並行性的深度神經網絡,Meta 在 Facebook 和 Instagram 上實現了選定區段的廣告質量提高 8% 和回憶率提高 6%。
憑藉優化的檢索模型和低延遲、高吞吐量及記憶體-IO 感知的 GPU 操作,Andromeda 在特徵提取速度上相比於以前的 CPU 基礎組件提高了 100 倍。這一 AI 在檢索階段的整合使 Meta 在廣告檢索方面領先業界,解決了可擴展性和延遲等挑戰,提供了更好的用戶體驗和更高的廣告支出回報。
隨著尖端 AI 模型的持續增長,生成每個標記所需的計算量也在增加。為了實時運行最先進的 LLM,企業需要多個 GPU 協同工作。像 NVIDIA Collective Communication Library(NCCL)這樣的工具使多 GPU 系統能夠快速在 GPU 之間交換大量數據,並最小化通信時間。
未來的 AI 推理創新
AI 推理的未來承諾在性能和成本上有顯著的進步。
NVIDIA 軟體、新技術和先進硬體的結合將使數據中心能夠處理越來越複雜和多樣化的工作負載。AI 推理將繼續推動醫療保健和金融等行業的進步,通過實現更準確的預測、更快的決策和更好的用戶體驗。
隨著這些趨勢的持續發展,組織必須保持最新,並利用最新的推理優化來最大化其投資並在 AI 時代保持競爭力。
了解更多有關 NVIDIA 如何提供突破性的推理性能結果,並保持最新的 AI 推理性能更新。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!