Pixtral 12B 現已在 Amazon SageMaker JumpStart 上線

今天，我們很高興地宣布，來自 Mistral AI 的 Pixtral 12B (pixtral-12b-2409) 是一款先進的視覺語言模型 (VLM)，在純文本和多模態任務中表現出色，現在可以通過 Amazon SageMaker JumpStart 提供給客戶使用。您可以使用 SageMaker JumpStart 試用這個模型，這是一個機器學習 (ML) 平台，提供可以一鍵部署的算法和模型，方便進行推斷。

在這篇文章中，我們將介紹如何發現、部署和使用 Pixtral 12B 模型，以應對各種現實世界的視覺應用案例。

Pixtral 12B 概述

Pixtral 12B 是 Mistral 的第一款 VLM，根據 Mistral 的說法，它在各種基準測試中表現強勁，超越了其他開放模型，並與更大的模型相媲美。Pixtral 被訓練來理解圖像和文檔，並在視覺任務中展現出強大的能力，如圖表和圖形理解、文檔問答、多模態推理和遵循指令等，我們稍後會用例子來展示這些能力。Pixtral 12B 能夠以其自然的解析度和長寬比來處理圖像。與其他開源模型不同，Pixtral 在文本基準性能上沒有妥協，例如遵循指令、編碼和數學，這使它在多模態任務中表現出色。

Mistral 為 Pixtral 12B 設計了一種新穎的架構，以優化速度和性能。該模型有兩個組件：一個擁有 4 億參數的視覺編碼器，負責將圖像轉換為標記；另一個是擁有 120 億參數的多模態變壓器解碼器，根據文本和圖像的序列預測下一個文本標記。這個視覺編碼器是新訓練的，原生支持可變圖像大小，這使得 Pixtral 能夠準確理解高解析度的複雜圖表、圖形和文檔，並在小圖像如圖標、剪貼畫和方程式上提供快速推斷速度。這種架構允許 Pixtral 在其 128,000 個標記的大上下文窗口中處理任意數量的圖像，無論大小。

使用開放權重模型時，許可協議是重要的決策因素。與其他 Mistral 模型（如 Mistral 7B、Mixtral 8x7B、Mixtral 8x22B 和 Mistral Nemo 12B）類似，Pixtral 12B 在商業上允許的 Apache 2.0 許可下發布，為企業和初創公司客戶提供了一個高性能的 VLM 選擇，以構建複雜的多模態應用程序。

SageMaker JumpStart 概述

SageMaker JumpStart 提供了廣泛的公共基礎模型 (FMs) 的訪問。這些預訓練模型作為強大的起點，可以深入自定義以解決特定的使用案例。您現在可以使用最先進的模型架構，如語言模型、計算機視覺模型等，而無需從頭開始構建它們。

使用 SageMaker JumpStart，您可以在安全的環境中部署模型。這些模型可以在專用的 SageMaker 推斷實例上配置，包括 AWS Trainium 和 AWS Inferentia 驅動的實例，並在您的虛擬私有雲 (VPC) 中隔離。這樣可以強化數據安全性和合規性，因為模型在您自己的 VPC 控制下運行，而不是在共享的公共環境中。部署 FM 後，您可以進一步自定義和微調模型，包括使用 SageMaker 推斷來部署模型和容器日誌以改善可觀察性。使用 SageMaker，您可以簡化整個模型部署過程。請注意，在撰寫時，Pixtral 12B 尚未在 SageMaker JumpStart 上提供微調功能。

前提條件

要在 SageMaker JumpStart 中試用 Pixtral 12B，您需要以下前提條件：

在 SageMaker JumpStart 中發現 Pixtral 12B

您可以通過 SageMaker Studio UI 和 SageMaker Python SDK 訪問 Pixtral 12B。在這一部分中，我們將介紹如何在 SageMaker Studio 中發現模型。

SageMaker Studio 是一個集成開發環境 (IDE)，提供一個基於網頁的可視化界面，您可以在這裡訪問專門的工具，執行從準備數據到構建、訓練和部署 ML 模型的開發步驟。要了解如何開始和設置 SageMaker Studio，請參考 Amazon SageMaker Studio Classic。

在 SageMaker Studio 中，通過在導航窗格中選擇 JumpStart 來訪問 SageMaker JumpStart。
選擇 HuggingFace 以訪問 Pixtral 12B 模型。
搜索 Pixtral 12B 模型。
您可以選擇模型卡以查看有關模型的詳細信息，如許可、訓練所用的數據和如何使用該模型。
選擇部署以部署模型並創建端點。

在 SageMaker JumpStart 中部署模型

當您選擇部署時，部署開始。當部署完成時，會創建一個端點。您可以通過傳遞示例推斷請求有效負載或使用 SDK 選擇測試選項來測試該端點。當您使用 SDK 時，您將看到可以在 SageMaker Studio 的筆記本編輯器中使用的示例代碼。

要使用 SDK 部署，我們首先選擇 Mistral Nemo Base 模型，通過 model_id 指定值為 huggingface-vlm-mistral-pixtral-12b-2409。您可以使用以下代碼在 SageMaker 上部署您選擇的任何選定模型：

from sagemaker.jumpstart.model import JumpStartModel

accept_eula = True

model = JumpStartModel(model_id=”huggingface-vlm-mistral-pixtral-12b-2409″)
predictor = model.deploy(accept_eula=accept_eula)

這會在 SageMaker 上以默認配置部署模型，包括默認實例類型和默認 VPC 配置。您可以通過在 JumpStartModel 中指定非默認值來更改這些配置。最終用戶許可協議 (EULA) 值必須明確定義為 True，以接受 EULA。此外，請確保您具有使用 ml.p4d.24xlarge 或 ml.pde.24xlarge 的帳戶級服務限制，以便用於端點使用。要請求服務配額增加，請參考 AWS 服務配額。在您部署模型後，您可以通過 SageMaker 預測器對已部署的端點進行推斷。

Pixtral 12B 使用案例

在這一部分中，我們提供了使用 Pixtral 12B 進行推斷的示例提示。

光學字符識別 (OCR)

我們使用以下圖像作為 OCR 的輸入。

我們使用以下提示：

payload =
“messages”: [

“role”: “user”,
“content”: [

“type”: “text”,
“text”: “提取並轉錄圖像中可見的所有文本，保留其確切的格式、佈局和任何特殊字符。包括換行並保持原始的大寫和標點符號。”,
,

“type”: “image_url”,
“image_url”:
“url”: “Pixtral_data/amazon_s1_2.jpg”

]

],
“max_tokens”: 2000,
“temperature”: 0.6,
“top_p”: 0.9,

print(response)

圖表理解與分析

對於圖表理解與分析，我們使用以下圖像作為輸入。

我們使用以下提示：

prompt= “””
分析附加的圖表或圖形圖像。您的任務是：
識別圖表或圖形的類型（例如，條形圖、折線圖、餅圖等）。
提取關鍵數據點，包括標籤、值和任何相關的刻度或單位。
識別並描述圖表中呈現的主要趨勢、模式或重要觀察。
生成一段清晰簡潔的段落，總結提取的數據和見解。摘要應突出最重要的信息，並提供一個概述，幫助人們在不查看圖表的情況下理解圖表。
確保您的摘要結構良好，準確反映數據，並以專業的語氣撰寫。
“””
payload =
“messages”: [

“role”: “user”,
“content”: [

“type”: “text”,
“text”: prompt,
,

“type”: “image_url”,
“image_url”:
“url”: “Pixtral_data/amazon_s1_2.jpg”

]

],
“max_tokens”: 2000,
“temperature”: 0.6,
“top_p”: 0.9,

print(response)
image_path = “Pixtral_data/Amazon_Chart.png” # 用您的本地圖像路徑替換
response = send_images_to_model(predictor, prompt, image_path)
print(response)

我們得到以下輸出：

這張圖是一個標題為「北美區域結果」的條形圖，展示了從 2023 年第二季度到 2024 年第二季度的淨銷售和營業收入數據。圖表分為兩個部分：一個是淨銷售，另一個是營業收入。

### 關鍵數據點：
– 淨銷售：
– 2023 年第二季度：$82,546 百萬
– 2023 年第三季度：大約 $85,000 百萬
– 2023 年第四季度：大約 $90,000 百萬
– 2024 年第一季度：大約 $85,000 百萬
– 2024 年第二季度：$90,033 百萬
– 年增長率 (Y/Y)：9%

– 營業收入：
– 2023 年第二季度：$3,211 百萬
– 2023 年第三季度：大約 $4,000 百萬
– 2023 年第四季度：大約 $7,000 百萬
– 2024 年第一季度：大約 $5,000 百萬
– 2024 年第二季度：$5,065 百萬
– 年增長率 (Y/Y)：58%

– 總計算的過去十二個月 (TTM)：
– 淨銷售：$369.8 億
– 營業收入：$20.8 億
…
– **營業收入：** 營業收入顯示出顯著增長，特別是在 2023 年第四季度達到高峰。年增長率顯著增長 58%。

### 總結：
這張條形圖展示了北美區域的結果，重點關注從 2023 年第二季度到 2024 年第二季度的淨銷售和營業收入。淨銷售顯示出穩定的上升趨勢，最終達到 9% 的年增長率，2024 年第二季度的最高值為 $90,033 百萬。營業收入則顯示出更多的波動性，在 2023 年第四季度達到顯著高峰，整體年增長率為 58%。過去十二個月 (TTM) 的數據顯示出強勁的表現，淨銷售達到 $369.8 億，營業收入為 $20.8 億。這些數據強調了北美區域在觀察期間內淨銷售和營業收入的正增長趨勢。

圖像轉代碼

對於圖像轉代碼的示例，我們使用以下圖像作為輸入。

我們使用以下提示：

def extract_html(text):
pattern = r’“`html\s*(.*?)\s*“`’
match = re.search(pattern, text, re.DOTALL)
return match.group(1) if match else None

prompt = “為一個簡約而未來感的網站創建 HTML 和 CSS 代碼，以購買行李。使用以下圖像作為模板來創建您自己的設計。”
payload =
“messages”: [

“role”: “user”,
“content”: [

“type”: “text”,
“text”: prompt,
,

“type”: “image_url”,
“image_url”:
“url”: “Pixtral_data/Amazon_Chart.png”

]

],
“max_tokens”: 2000,
“temperature”: 0.6,
“top_p”: 0.9,

print(‘輸入圖像：\n\n’)
html_code = extract_html(response)
print(html_code)
display(HTML(html_code))
<!DOCTYPE html>
<html lang=”en”>
<head>
<meta charset=”UTF-8″>
<meta name=”viewport” content=”width=device-width, initial-scale=1.0″>
<title>行李商店</title>
<link rel=”stylesheet” href=”https://aws.amazon.com/blogs/machine-learning/pixtral-12b-is-now-available-on-amazon-sagemaker-jumpstart/styles.css”>
</head>
<body>
<header>
<h1>行李商店</h1>
<nav>
<ul>
<li><a href=”#”>首頁</a></li>
<li><a href=”#”>產品</a></li>
<li><a href=”#”>關於</a></li>
<li><a href=”#”>聯繫</a></li>
</ul>
</nav>
</header>
…
<p>© 2023 行李商店。版權所有。</p>
</footer>
</body>
</html>

清理

完成後，使用以下代碼刪除 SageMaker 端點，以避免產生不必要的費用：

predictor.delete_model()
predictor.delete_endpoint()

結論

在這篇文章中，我們向您展示了如何在 SageMaker JumpStart 中開始使用 Mistral 最新的多模態模型 Pixtral 12B 並部署該模型進行推斷。我們還探討了 SageMaker JumpStart 如何幫助數據科學家和 ML 工程師發現、訪問和部署各種預訓練的 FM 進行推斷，包括其他 Mistral AI 模型，如 Mistral 7B 和 Mixtral 8x22B。

有關 SageMaker JumpStart 的更多信息，請參考使用 SageMaker JumpStart 訓練、部署和評估預訓練模型以及開始使用 Amazon SageMaker JumpStart。

有關 Mistral 資源的更多信息，請查看 Mistral-on-AWS 倉庫。

關於作者

Preston Tuggle 是一名高級專家解決方案架構師，專注於生成式 AI。

Niithiyn Vijeaswaran 是 AWS 的生成式 AI 專家解決方案架構師。他的專注領域是生成式 AI 和 AWS AI 加速器。他擁有計算機科學和生物信息學的學士學位。Niithiyn 與生成式 AI GTM 團隊密切合作，幫助 AWS 客戶在多個方面加速生成式 AI 的採用。他是達拉斯小牛隊的狂熱粉絲，喜歡收集運動鞋。

Shane Rai 是 AWS 全球專家組織 (WWSO) 的首席生成式 AI 專家。他與各行各業的客戶合作，利用 AWS 的雲端 AI/ML 服務解決他們最迫切和創新的商業需求，包括來自頂級基礎模型提供商的模型產品。

新聞來源

本文由 AI 台灣使用 AI 編撰，內容僅供參考，請自行進行事實查核。加入 AI TAIWAN Google News，隨時掌握最新 AI 資訊！

Pixtral 12B 現已在 Amazon SageMaker JumpStart 上線

研究人員讓人工智慧模型「忘記」數據

介紹增強版的 AWS Secrets Manager 轉換：AWS::SecretsManager-2024-09-16

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph：一個可視化和分析大型語言模型推理過程的網絡平台

生成式人工智慧的影響及其對數據科學家的啟示

這篇AI論文介紹了BD3-LMs：一種結合自回歸模型和擴散模型的混合方法，用於可擴展和高效的文本生成

九個生鏽的Pico PIO瓦特（第二部分）

開始使用 Amazon Bedrock Agents 的電腦操作

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

介紹增強版的 AWS Secrets Manager 轉換：AWS::SecretsManager-2024-09-16

掌握無縫智慧家庭的藝術

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

Pixtral 12B 現已在 Amazon SageMaker JumpStart 上線

Pixtral 12B 概述

SageMaker JumpStart 概述

前提條件

在 SageMaker JumpStart 中發現 Pixtral 12B

在 SageMaker JumpStart 中部署模型

Pixtral 12B 使用案例

光學字符識別 (OCR)

圖表理解與分析

圖像轉代碼

清理

結論

關於作者

研究人員讓人工智慧模型「忘記」數據

介紹增強版的 AWS Secrets Manager 轉換：AWS::SecretsManager-2024-09-16

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆