今天,我們很高興地宣布,來自 Mistral AI 的 Pixtral 12B (pixtral-12b-2409) 是一款先進的視覺語言模型 (VLM),在純文本和多模態任務中表現出色,現在可以通過 Amazon SageMaker JumpStart 提供給客戶使用。您可以使用 SageMaker JumpStart 試用這個模型,這是一個機器學習 (ML) 平台,提供可以一鍵部署的算法和模型,方便進行推斷。
在這篇文章中,我們將介紹如何發現、部署和使用 Pixtral 12B 模型,以應對各種現實世界的視覺應用案例。
Pixtral 12B 概述
Pixtral 12B 是 Mistral 的第一款 VLM,根據 Mistral 的說法,它在各種基準測試中表現強勁,超越了其他開放模型,並與更大的模型相媲美。Pixtral 被訓練來理解圖像和文檔,並在視覺任務中展現出強大的能力,如圖表和圖形理解、文檔問答、多模態推理和遵循指令等,我們稍後會用例子來展示這些能力。Pixtral 12B 能夠以其自然的解析度和長寬比來處理圖像。與其他開源模型不同,Pixtral 在文本基準性能上沒有妥協,例如遵循指令、編碼和數學,這使它在多模態任務中表現出色。
Mistral 為 Pixtral 12B 設計了一種新穎的架構,以優化速度和性能。該模型有兩個組件:一個擁有 4 億參數的視覺編碼器,負責將圖像轉換為標記;另一個是擁有 120 億參數的多模態變壓器解碼器,根據文本和圖像的序列預測下一個文本標記。這個視覺編碼器是新訓練的,原生支持可變圖像大小,這使得 Pixtral 能夠準確理解高解析度的複雜圖表、圖形和文檔,並在小圖像如圖標、剪貼畫和方程式上提供快速推斷速度。這種架構允許 Pixtral 在其 128,000 個標記的大上下文窗口中處理任意數量的圖像,無論大小。
使用開放權重模型時,許可協議是重要的決策因素。與其他 Mistral 模型(如 Mistral 7B、Mixtral 8x7B、Mixtral 8x22B 和 Mistral Nemo 12B)類似,Pixtral 12B 在商業上允許的 Apache 2.0 許可下發布,為企業和初創公司客戶提供了一個高性能的 VLM 選擇,以構建複雜的多模態應用程序。
SageMaker JumpStart 概述
SageMaker JumpStart 提供了廣泛的公共基礎模型 (FMs) 的訪問。這些預訓練模型作為強大的起點,可以深入自定義以解決特定的使用案例。您現在可以使用最先進的模型架構,如語言模型、計算機視覺模型等,而無需從頭開始構建它們。
使用 SageMaker JumpStart,您可以在安全的環境中部署模型。這些模型可以在專用的 SageMaker 推斷實例上配置,包括 AWS Trainium 和 AWS Inferentia 驅動的實例,並在您的虛擬私有雲 (VPC) 中隔離。這樣可以強化數據安全性和合規性,因為模型在您自己的 VPC 控制下運行,而不是在共享的公共環境中。部署 FM 後,您可以進一步自定義和微調模型,包括使用 SageMaker 推斷來部署模型和容器日誌以改善可觀察性。使用 SageMaker,您可以簡化整個模型部署過程。請注意,在撰寫時,Pixtral 12B 尚未在 SageMaker JumpStart 上提供微調功能。
前提條件
要在 SageMaker JumpStart 中試用 Pixtral 12B,您需要以下前提條件:
在 SageMaker JumpStart 中發現 Pixtral 12B
您可以通過 SageMaker Studio UI 和 SageMaker Python SDK 訪問 Pixtral 12B。在這一部分中,我們將介紹如何在 SageMaker Studio 中發現模型。
SageMaker Studio 是一個集成開發環境 (IDE),提供一個基於網頁的可視化界面,您可以在這裡訪問專門的工具,執行從準備數據到構建、訓練和部署 ML 模型的開發步驟。要了解如何開始和設置 SageMaker Studio,請參考 Amazon SageMaker Studio Classic。
在 SageMaker Studio 中,通過在導航窗格中選擇 JumpStart 來訪問 SageMaker JumpStart。
選擇 HuggingFace 以訪問 Pixtral 12B 模型。
搜索 Pixtral 12B 模型。
您可以選擇模型卡以查看有關模型的詳細信息,如許可、訓練所用的數據和如何使用該模型。
選擇部署以部署模型並創建端點。
在 SageMaker JumpStart 中部署模型
當您選擇部署時,部署開始。當部署完成時,會創建一個端點。您可以通過傳遞示例推斷請求有效負載或使用 SDK 選擇測試選項來測試該端點。當您使用 SDK 時,您將看到可以在 SageMaker Studio 的筆記本編輯器中使用的示例代碼。
要使用 SDK 部署,我們首先選擇 Mistral Nemo Base 模型,通過 model_id 指定值為 huggingface-vlm-mistral-pixtral-12b-2409。您可以使用以下代碼在 SageMaker 上部署您選擇的任何選定模型:
這會在 SageMaker 上以默認配置部署模型,包括默認實例類型和默認 VPC 配置。您可以通過在 JumpStartModel 中指定非默認值來更改這些配置。最終用戶許可協議 (EULA) 值必須明確定義為 True,以接受 EULA。此外,請確保您具有使用 ml.p4d.24xlarge 或 ml.pde.24xlarge 的帳戶級服務限制,以便用於端點使用。要請求服務配額增加,請參考 AWS 服務配額。在您部署模型後,您可以通過 SageMaker 預測器對已部署的端點進行推斷。
Pixtral 12B 使用案例
在這一部分中,我們提供了使用 Pixtral 12B 進行推斷的示例提示。
光學字符識別 (OCR)
我們使用以下圖像作為 OCR 的輸入。
我們使用以下提示:
圖表理解與分析
對於圖表理解與分析,我們使用以下圖像作為輸入。
我們使用以下提示:
我們得到以下輸出:
圖像轉代碼
對於圖像轉代碼的示例,我們使用以下圖像作為輸入。
我們使用以下提示:
清理
完成後,使用以下代碼刪除 SageMaker 端點,以避免產生不必要的費用:
結論
在這篇文章中,我們向您展示了如何在 SageMaker JumpStart 中開始使用 Mistral 最新的多模態模型 Pixtral 12B 並部署該模型進行推斷。我們還探討了 SageMaker JumpStart 如何幫助數據科學家和 ML 工程師發現、訪問和部署各種預訓練的 FM 進行推斷,包括其他 Mistral AI 模型,如 Mistral 7B 和 Mixtral 8x22B。
有關 SageMaker JumpStart 的更多信息,請參考 使用 SageMaker JumpStart 訓練、部署和評估預訓練模型以及開始使用 Amazon SageMaker JumpStart。
有關 Mistral 資源的更多信息,請查看 Mistral-on-AWS 倉庫。
關於作者
Preston Tuggle 是一名高級專家解決方案架構師,專注於生成式 AI。
Niithiyn Vijeaswaran 是 AWS 的生成式 AI 專家解決方案架構師。他的專注領域是生成式 AI 和 AWS AI 加速器。他擁有計算機科學和生物信息學的學士學位。Niithiyn 與生成式 AI GTM 團隊密切合作,幫助 AWS 客戶在多個方面加速生成式 AI 的採用。他是達拉斯小牛隊的狂熱粉絲,喜歡收集運動鞋。
Shane Rai 是 AWS 全球專家組織 (WWSO) 的首席生成式 AI 專家。他與各行各業的客戶合作,利用 AWS 的雲端 AI/ML 服務解決他們最迫切和創新的商業需求,包括來自頂級基礎模型提供商的模型產品。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!