今天,我們很高興地宣布,Meta 的 Llama 3.3 70B 現已在 Amazon SageMaker JumpStart 上線。Llama 3.3 70B 是大型語言模型(LLM)發展的一個重要進展,提供與更大型的 Llama 版本相當的性能,但所需的計算資源更少。
在這篇文章中,我們將探討如何在 Amazon SageMaker AI 上有效地部署這個模型,利用先進的 SageMaker AI 功能來達到最佳性能和成本管理。
Llama 3.3 70B 模型概述
Llama 3.3 70B 代表了模型效率和性能優化的一個重要突破。這個新模型的輸出質量與 Llama 3.1 405B 相當,但只需要一小部分的計算資源。根據 Meta 的說法,這種效率提升使推理操作的成本幾乎降低了五倍,這使得它成為生產部署的一個吸引選擇。
這個模型的複雜架構基於 Meta 優化的變壓器設計,具有增強的注意力機制,可以顯著降低推理成本。在開發過程中,Meta 的工程團隊在一個包含約 15 萬億個標記的廣泛數據集上訓練了這個模型,這些數據包括來自網路的內容和超過 2500 萬個專門為 LLM 開發的合成範例。這種全面的訓練方法使得模型在各種任務上具備了強大的理解和生成能力。
Llama 3.3 70B 的特點在於其精緻的訓練方法。這個模型經歷了一個廣泛的監督微調過程,並結合了來自人類反饋的強化學習(RLHF)。這種雙重訓練策略有助於使模型的輸出更接近人類的偏好,同時保持高性能標準。在與其更大型的對應模型 Llama 3.1 405B 的基準評估中,Llama 3.3 70B 展現了驚人的一致性,在 10 個標準 AI 基準中有 6 個的表現僅比 Llama 3.1 405B 低不到 2%,並在三個類別中實際超越了它。這種性能特徵使其成為尋求平衡模型能力與操作效率的組織的理想選擇。
以下圖表總結了基準結果(來源)。
開始使用 SageMaker JumpStart
SageMaker JumpStart 是一個機器學習(ML)中心,可以幫助加速你的 ML 旅程。使用 SageMaker JumpStart,你可以評估、比較和選擇預訓練的基礎模型(FMs),包括 Llama 3 模型。這些模型可以根據你的數據進行完全自定義,並且你可以使用 UI 或 SDK 將它們部署到生產環境中。
通過 SageMaker JumpStart 部署 Llama 3.3 70B 提供了兩種方便的方法:使用直觀的 SageMaker JumpStart UI 或通過 SageMaker Python SDK 進行程式化實現。讓我們來探討這兩種方法,幫助你選擇最適合你的需求的方法。
通過 SageMaker JumpStart UI 部署 Llama 3.3 70B
你可以通過 Amazon SageMaker Unified Studio 或 Amazon SageMaker Studio 訪問 SageMaker JumpStart UI。要使用 SageMaker JumpStart UI 部署 Llama 3.3 70B,請完成以下步驟:
在 SageMaker Unified Studio 的建構菜單中,選擇 JumpStart 模型。
或者,在 SageMaker Studio 控制台中,選擇導航窗格中的 JumpStart。
搜尋 Meta Llama 3.3 70B。
選擇 Meta Llama 3.3 70B 模型。
選擇部署。
接受最終用戶許可協議(EULA)。
對於實例類型,選擇一個實例(ml.g5.48xlarge 或 ml.p4d.24xlarge)。
選擇部署。
等待直到端點狀態顯示為 InService。現在你可以使用這個模型進行推理。
使用 SageMaker Python SDK 部署 Llama 3.3 70B
對於希望自動化部署或與現有 MLOps 管道集成的團隊,你可以使用以下代碼通過 SageMaker Python SDK 部署模型:
設置自動擴展並縮減到零
你可以選擇設置自動擴展,以便在部署後縮減到零。欲了解更多信息,請參閱 SageMaker 推理中的新縮減到零功能以解鎖成本節省。
使用 SageMaker AI 優化部署
SageMaker AI 簡化了像 Llama 3.3 70B 這樣的複雜模型的部署,提供了一系列旨在優化性能和成本效率的功能。通過 SageMaker AI 的先進功能,組織可以在生產環境中部署和管理 LLM,充分利用 Llama 3.3 70B 的效率,同時受益於 SageMaker AI 的簡化部署過程和優化工具。通過 SageMaker JumpStart 的默認部署使用加速部署,這利用了推測解碼來提高吞吐量。欲了解更多有關推測解碼如何與 SageMaker AI 一起工作的資訊,請參閱 Amazon SageMaker 推出更新的推理優化工具包以支持生成 AI。
首先,快速模型加載器徹底改變了模型初始化過程,實施了一種創新的權重流媒介機制。這個功能根本改變了模型權重如何加載到加速器上,顯著減少了準備模型進行推理所需的時間。與傳統的將整個模型加載到內存中再開始操作的方法不同,快速模型加載器直接從 Amazon 簡單儲存服務(Amazon S3)將權重流式傳輸到加速器,實現更快的啟動和擴展時間。
一個 SageMaker 推理功能是容器緩存,這改變了在擴展操作期間如何管理模型容器。這個功能消除了部署擴展中的一個主要瓶頸,通過預緩存容器映像,消除了在添加新實例時需要耗時下載的需求。對於像 Llama 3.3 70B 這樣的大型模型,容器映像的大小可能相當可觀,這種優化顯著減少了擴展延遲並提高了整體系統的響應能力。
另一個關鍵功能是縮減到零。它引入了智能資源管理,根據實際使用模式自動調整計算能力。這個功能代表了模型部署成本優化的一個範式轉變,允許端點在不活動期間完全縮減,同時在需求回升時迅速擴展。這個功能對於運行多個模型或處理變化工作負載模式的組織特別有價值。
這些功能共同創造了一個強大的部署環境,最大化 Llama 3.3 70B 高效架構的好處,同時提供強大的工具來管理運營成本和性能。
結論
Llama 3.3 70B 與 SageMaker AI 的先進推理功能的結合,為生產部署提供了最佳解決方案。通過使用快速模型加載器、容器緩存和縮減到零功能,組織可以在 LLM 部署中實現高性能和成本效率。
我們鼓勵你嘗試這個實施並分享你的經驗。
關於作者
Marc Karp 是 Amazon SageMaker 服務團隊的機器學習架構師。他專注於幫助客戶設計、部署和管理大規模的機器學習工作負載。在空閒時間,他喜歡旅行和探索新地方。
Saurabh Trikande 是 Amazon Bedrock 和 SageMaker 推理的高級產品經理。他熱衷於與客戶和合作夥伴合作,目標是民主化 AI。他專注於與部署複雜 AI 應用程序、使用多租戶模型進行推理、成本優化以及使生成 AI 模型的部署更易於訪問相關的核心挑戰。在空閒時間,Saurabh 喜歡健行、學習創新技術、關注 TechCrunch,並與家人共度時光。
Melanie Li 博士是 AWS 的高級生成 AI 專家解決方案架構師,駐於澳大利亞悉尼,她專注於與客戶合作,利用最先進的 AI 和機器學習工具構建解決方案。她積極參與多個生成 AI 項目,利用大型語言模型(LLMs)的力量。在加入 AWS 之前,Li 博士曾在金融和零售行業擔任數據科學職位。
Adriana Simmons 是 AWS 的高級產品市場經理。
Lokeshwaran Ravi 是 AWS 的高級深度學習編譯工程師,專注於機器學習優化、模型加速和 AI 安全。他專注於提高效率、降低成本,並建立安全的生態系統,以民主化 AI 技術,使尖端的機器學習在各行各業中變得可訪問和有影響力。
Yotam Moss 是 AWS AI 的推理軟體開發經理。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!