使用 Amazon SageMaker HyperPod 配方自訂 DeepSeek-R1 精簡模型 - 第 1 部分

越來越多的組織正在各行各業中使用生成式人工智慧基礎模型 (FMs) 來增強他們的應用程式。為了在特定的使用情境中達到最佳性能，客戶正在根據他們獨特的領域需求來採用和調整這些模型。隨著新模型的出現，例如 DeepSeek 發布的模型，這種客製化的需求變得更加明顯。

然而，有效地客製化 DeepSeek 模型同時管理計算資源仍然是一個重大挑戰。調整模型架構需要技術專業知識、訓練和微調參數，以及管理分散式訓練基礎設施等。這常常迫使公司在模型性能和實際實施限制之間做出選擇，因此對於更易於使用和簡化的模型客製化解決方案的需求變得非常迫切。

在這個兩部分的系列文章中，我們將討論如何通過使用預建的微調工作流程（也稱為“食譜”）來減少 DeepSeek 模型的客製化複雜性，這些食譜適用於 DeepSeek-R1 模型及其精簡版本，這些食譜作為 Amazon SageMaker HyperPod 食譜的一部分發布。

在這篇文章中，我們將建立一個微調 DeepSeek-R1 精簡模型的解決方案架構，並通過提供逐步示例來演示如何使用食譜來客製化 DeepSeek-R1 Distill Qwen 7b 模型，所有 Rouge 分數的平均提升達到 25%，而 Rouge 2 分數的最高提升達到 49%，這是使用 SageMaker HyperPod 和 SageMaker 訓練作業的結果。系列的第二部分將專注於微調 DeepSeek-R1 671b 模型本身。

在撰寫本文時，DeepSeek-R1 模型及其對 Llama 和 Qwen 的精簡版本是最新發布的食譜。請查看 GitHub 上的 sagemaker-hyperpod-recipes，以獲取最新發布的食譜，包括對 DeepSeek-R1 671b 參數模型的微調支援。

Amazon SageMaker HyperPod 食譜

在 re:Invent 2024 上，我們宣布 Amazon SageMaker HyperPod 食譜的正式可用性。SageMaker HyperPod 食譜幫助各種技能水平的數據科學家和開發人員在幾分鐘內開始訓練和微調流行的公共生成式人工智慧模型，並提供先進的訓練性能。這些食譜包括經過 Amazon Web Services (AWS) 驗證的訓練堆疊，消除了嘗試不同模型配置的繁瑣工作，最小化了迭代評估和測試所需的時間。它們自動化了幾個關鍵步驟，例如加載訓練數據集、應用分散式訓練技術、自動化檢查點以便更快地從故障中恢復，以及管理端到端的訓練循環。

食譜與 AWS 的穩定基礎設施（Amazon SageMaker HyperPod 和 Amazon SageMaker 模型訓練）相結合，為微調 FMs（如 DeepSeek-R1）提供了一個穩定的訓練環境，並提供即用型的客製化。

為了幫助客戶快速使用 DeepSeek 的強大且具成本效益的模型來加速生成式人工智慧創新，我們發布了新的食譜，以微調六個 DeepSeek 模型，包括使用監督微調 (SFT)、量化低秩適應 (QLoRA) 和低秩適應 (LoRA) 技術的 DeepSeek-R1 精簡 Llama 和 Qwen 模型。在這篇文章中，我們介紹這些新食譜，並引導您完成微調 DeepSeek Qwen 7b 模型以應對高級醫療推理用例的解決方案。

解決方案概述

在其核心，如下圖所示，食譜架構實現了一個分層工作流程，該工作流程從涵蓋訓練參數、模型架構和分散式訓練策略的全面配置的食譜規範開始。這些食譜通過 HyperPod 食譜啟動器進行處理，該啟動器作為負責啟動相應架構作業的協調層。啟動器與底層集群管理系統（如 SageMaker HyperPod (Slurm 或 Kubernetes) 或訓練作業）進行接口，這些系統負責資源分配和調度。這是一個熟悉的 NeMo 風格啟動器，您可以選擇食譜並在您選擇的基礎設施上運行它（SageMaker HyperPod 或訓練）。

例如，在選擇食譜後，您可以通過運行 python3 main.py recipes=recipe-name 來預訓練或微調模型。或者，您可以使用啟動器腳本，這是一個預配置的 bash 腳本，用於在您的集群上運行所選的訓練或微調作業。您可以查看 GitHub 上的 main.py（NeMo 風格啟動器）和 DeepSeek 的啟動器腳本。

這個架構的一個關鍵組件是為 NeMo 構建的 HyperPod 訓練適配器，它基於 NVIDIA NeMo 框架和 Neuronx 分散式訓練包，該包加載數據、創建模型，並促進高效的數據並行性、模型並行性和混合並行性策略，這使得在分散式基礎設施上最佳利用計算資源成為可能。該架構的模組化設計允許擴展性和靈活性，特別適合需要分散計算能力的 LLM 訓練。

您可以使用 SageMaker HyperPod 或作為 SageMaker 訓練作業運行這些食譜。對於需要對訓練基礎設施進行細粒度控制和廣泛客製化選項的組織，SageMaker HyperPod 是理想的選擇。另一方面，SageMaker 訓練作業則適合希望獲得完全管理體驗的組織。要了解有關這些服務特徵的更多詳細信息，請參閱 Amazon SageMaker 上的生成式人工智慧基礎模型訓練。

在接下來的部分中，我們將介紹這些服務的解決方案架構，然後為每個服務提供逐步實施示例。

SageMaker HyperPod

要使用 SageMaker HyperPod 提交作業，您可以使用 HyperPod 食譜啟動器，該啟動器提供了一個簡單的機制來在 Slurm 和 Kubernetes 上運行食譜。在選擇協調者後，您可以選擇食譜的啟動器並讓它在您的 HyperPod 集群上運行。啟動器將通過 Slurm 或 Kubernetes 原生構造與您的集群進行接口。在這篇文章中，我們使用 HyperPod 食譜啟動器機制在 Slurm 集群上運行訓練。以下圖片顯示了 SageMaker HyperPod 的解決方案架構。

SageMaker 訓練作業

SageMaker 訓練作業的工作流程始於與 SageMaker 控制平面進行接口的 API 請求，該控制平面管理訓練資源的協調。系統使用訓練作業啟動器在受管理的集群上高效運行工作負載。

該架構使用 Amazon Elastic Container Registry (Amazon ECR) 進行容器映像管理。訓練作業在分散式集群上執行，並無縫集成多種存儲解決方案，包括 Amazon Simple Storage Service (Amazon S3)、Amazon Elastic File Storage (Amazon EFS) 和 Amazon FSx for Lustre。所有這些都在 SageMaker 管理的環境下運行，提供最佳的資源利用率和安全性。

這種設計簡化了分散式訓練的複雜性，同時保持了對多樣化機器學習 (ML) 工作負載所需的靈活性，使其成為企業 AI 開發的理想解決方案。以下圖片顯示了 SageMaker 訓練作業的解決方案架構。

解決方案步驟

對於這個解決方案，考慮一個醫療行業初創公司的用例，旨在創建一個準確且經醫學驗證的聊天助手應用程式，該應用程式能夠將複雜的醫療信息與患者友好的解釋相連接。通過使用 FreedomIntelligence/medical-o1-reasoning-SFT 數據集微調 DeepSeek-R1 Distill Qwen 7b，您可以利用其醫療推理能力生成保持臨床準確性的內容。

前提條件

在運行 DeepSeek-R1 Distill Qwen 7B 模型微調筆記本之前，您需要完成以下前提條件。

向 SageMaker 提出以下配額增加請求。您需要請求至少一個 p4d.24xlarge 實例（配備 8 個 NVIDIA A100 GPU），最多請求兩個 p4d.24xlarge 實例（根據您的用例的訓練時間和訓練成本的權衡）。

在服務配額控制台上，請求以下 SageMaker 配額：

用於訓練作業的 P4 實例 (p4d.24xlarge)：1–2
用於 HyperPod 集群的 P4 實例 (ml.p4d.24xlarge)：1-2

如果您選擇使用 HyperPod 集群來運行訓練，請按照 Amazon SageMaker HyperPod 的入門文檔設置 HyperPod Slurm 集群。或者，您可以使用 AWS Workshop Studio 中提供的 AWS CloudFormation 模板，並按照說明設置集群和開發環境，以訪問並提交作業到集群。
（可選）如果您選擇使用 SageMaker 訓練作業，您可以創建一個 Amazon SageMaker Studio 域（參見 Amazon SageMaker AI 的快速設置），以訪問帶有前述角色的 Jupyter 筆記本。（您也可以在本地設置中使用 JupyterLab。）

克隆包含此部署資產的 GitHub 存儲庫。該存儲庫包含一個引用訓練資產的筆記本：

git clone https://github.com/aws-samples/sagemaker-distributed-training-workshop.git
cd 18_sagemaker_training_recipes/ft_deepseek_qwen_lora

接下來，我們運行 model_trainer_deepseek_r1_recipe_lora.ipynb 筆記本，以使用 QLoRA 在 SageMaker 上微調 DeepSeek-R1 模型。

準備數據集

要準備數據集，您需要加載 FreedomIntelligence/medical-o1-reasoning-SFT 數據集，對數據集進行標記和分塊，並配置 SageMaker 在 Amazon S3 上的數據通道。完成以下步驟：

通過應用 DeepSeek-R1 Distill Qwen 7B 的提示格式來格式化數據集：

def generate_prompt(data_point):
   full_prompt = f”””
   以下是描述任務的指令，並配有提供進一步上下文的輸入。
   寫出適當完成請求的回應。
   在回答之前，仔細思考問題，並創建一個逐步的思考鏈，以確保邏輯和準確的回應。

   ### 指令：
   您是一位擁有臨床推理、診斷和治療計劃的高級知識的醫學專家。
   請回答以下醫療問題。

### 問題：
data_point[“Question”]

### 回應：
data_point[“Complex_CoT”]

“””
return “prompt”: full_prompt.strip()

加載 FreedomIntelligence/medical-o1-reasoning-SFT 數據集並將其拆分為訓練和驗證數據集：

# 從中心加載數據集
train_set = load_dataset(dataset_name, ‘en’, split=”train[5%:]”)
test_set = load_dataset(dataset_name, ‘en’, split=”train[:5%]”)

…

train_dataset = train_set.map(
   generate_and_tokenize_prompt,
   remove_columns=columns_to_remove,
   batched=False
)

test_dataset = test_set.map(
   generate_and_tokenize_prompt,
   remove_columns=columns_to_remove,
   batched=False
)

從 Hugging Face Transformers 庫加載 DeepSeek-R1 Distill Qwen 7B 的標記器，並為訓練和驗證數據集生成標記：

model_id = “deepseek-ai/DeepSeek-R1-Distill-Qwen-7B”
max_seq_length=1024

# 通過加載預訓練的標記器配置來初始化標記器，如果可用則使用快速標記器實現。
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)

…

train_dataset = train_dataset.map(tokenize, remove_columns=[“prompt”])
test_dataset = test_dataset.map(tokenize, remove_columns=[“prompt”])

準備 SageMaker 訓練的訓練和驗證數據集，將其保存為箭頭文件，這是 SageMaker HyperPod 食譜所需的，並構建這些文件將上傳的 S3 路徑：

train_dataset_s3_path = f”s3://bucket_name/input_path/train”
val_dataset_s3_path = f”s3://bucket_name/input_path/test”

train_dataset.save_to_disk(train_dataset_s3_path)
val_dataset.save_to_disk(val_dataset_s3_path)

上述數據集將用於 SageMaker 訓練作業和 SageMaker HyperPod 的示例。

選項 A：使用 SageMaker 訓練作業進行微調

要使用 SageMaker 訓練作業和食譜微調模型，本示例使用 ModelTrainer 類。

ModelTrainer 類是一種更新且更直觀的模型訓練方法，顯著提升了用戶體驗，並支援分散式訓練、自建容器 (BYOC) 和食譜。欲了解有關 ModelTrainer 的更多信息，您可以參考《使用新改進的 Amazon SageMaker Python SDK 加速您的 ML 生命週期 – 第 1 部分：ModelTrainer》。

要設置微調工作負載，請完成以下步驟：

選擇實例類型、訓練作業的容器映像，並定義模型將存儲的檢查點路徑：

instance_type = “ml.p4d.24xlarge”

image_uri = (
f”658645717510.dkr.ecr.sagemaker_session.boto_session.region_name.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121″
)

checkpoint_s3_path = f”s3://bucket_name/deepseek-r1-distilled-qwen-7b-recipe-lora/checkpoints”

創建 ModelTrainer 函數以封裝從所選食譜中獲取的訓練設置：

from sagemaker.modules.configs import CheckpointConfig, Compute, InputData, SourceCode, StoppingCondition
from sagemaker.modules.distributed import Torchrun
from sagemaker.modules.train import ModelTrainer

instance_count = 1

# 用於自定義數據集的工作覆蓋
recipe_overrides =
…
   “trainer”:
   “num_nodes”: instance_count,
…
   ,
…
   “use_smp_model”: False, # PEFT 所需
   “model”:
   “hf_model_name_or_path”: model_id,
   “data”:
   “train_dir”: “/opt/ml/input/data/train”,
   “val_dir”: “/opt/ml/input/data/test”,
   ,
   ,

# 定義計算
compute_configs = Compute(
   instance_type=instance_type,
   instance_count=instance_count,
   keep_alive_period_in_seconds=0
)

model_trainer = ModelTrainer.from_recipe(
   training_image=image_uri,
   training_recipe=”fine-tuning/deepseek/hf_deepseek_r1_distilled_qwen_7b_seq8k_gpu_lora”,
   recipe_overrides=recipe_overrides,
   requirements=”./requirements.txt”,
   compute=compute_configs,
…
   checkpoint_config=CheckpointConfig(
   s3_uri=f”checkpoint_s3_path/job_prefix”
   ),
)

您可以通過 training_recipe 參數指向特定食譜，並通過提供字典作為 recipe_overrides 參數來覆蓋食譜參數。在前面的示例中：

num_nodes: 表示將用於微調執行的實例數量
checkpoint_dir: 容器中將保存模型檢查點的位置

ModelTrainer 類通過直接從所選食譜封裝代碼和訓練設置來簡化體驗。在這個示例中：

training_recipe: hf_deepseek_r1_distilled_qwen_7b_seq8k_gpu_lora 定義了 LoRA 技術的微調設置

通過從提供的 S3 存儲桶路徑創建 InputData 對象來設置 ModelTrainer 的輸入通道，這些路徑用於訓練和測試及驗證數據集
提交訓練作業：

# 使用我們上傳的數據集作為輸入開始訓練作業
model_trainer.train(input_data_config=data, wait=True)

選項 B：使用 SageMaker HyperPod 與 Slurm 進行微調

要使用 HyperPod 微調模型，請確保您的集群已啟動並準備就緒，並遵循前提條件。要從開發環境訪問 HyperPod Slurm 集群的登錄或主節點，請遵循 Amazon SageMaker HyperPod 工作坊中的登錄說明。

或者，您也可以使用 AWS Systems Manager，運行以下命令來啟動會話。您可以在 Amazon SageMaker 控制台中找到集群 ID、實例組名稱和實例 ID。

aws ssm start-session –target sagemaker-cluster:[cluster-id]_[instance-group-name]-[instance-id] –region region_name

在集群的登錄或主節點中，運行以下命令以設置環境。運行 sudo su – ubuntu 以根用戶身份運行剩餘命令，除非您有特定的用戶 ID 來訪問集群，並且您的 POSIX 用戶是通過集群上的生命週期腳本創建的。請參閱多用戶設置以獲取更多詳細信息。

# 創建虛擬環境
python3 -m venv $PWD/venv
source venv/bin/activate

# 克隆食譜存儲庫並設置環境
git clone –recursive https://github.com/aws/sagemaker-hyperpod-recipes.git
cd sagemaker-hyperpod-recipes
pip3 install -r requirements.txt

使用 Enroot 創建一個壓縮文件，以便在集群上運行作業。Enroot 運行時提供 GPU 加速、無根容器支援和與高性能計算 (HPC) 環境的無縫集成，使其非常適合安全地運行我們的工作流程。

# 使用 Enroot 創建壓縮文件
REGION=
IMAGE=”658645717510.dkr.ecr.$REGION.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121″
aws ecr get-login-password –region “$REGION” | docker login –username AWS –password-stdin 658645717510.dkr.ecr.$REGION.amazonaws.com
enroot import -o $PWD/smdistributed-modelparallel.sqsh dockerd://$IMAGE

創建壓縮文件後，更新 recipes_collection/config.yaml 文件，將其設置為壓縮文件的絕對路徑（在前一步中創建），並根據需要更新實例類型。最終配置文件應包含以下參數：

…

cluster_type: slurm
…

instance_type: p4d.24xlarge
…

container: /fsx/.sqsh
…

將您上傳到 S3 的準備數據集下載到附加到集群的 FSx for Lustre 卷中。運行以下命令從 Amazon S3 下載文件：

aws s3 cp s3://bucket_name/input_path/train /fsx/ubuntu/deepseek/data/train –recursive
aws s3 cp s3://bucket_name/input_path/test /fsx/ubuntu/deepseek/data/test –recursive

更新用於微調 DeepSeek-R1 Distill Qwen 7B 模型的啟動器腳本。啟動器腳本作為執行訓練腳本 main.py 文件的方便包裝器，簡化了微調和參數調整的過程。要微調 DeepSeek-R1 Qwen 7B 模型，您可以在以下位置找到特定腳本：

launcher_scripts/deepseek/run_hf_deepseek_r1_qwen_7b_seq16k_gpu_fine_tuning.sh

在運行腳本之前，您需要修改訓練和驗證文件的位置，並更新 HuggingFace 模型 ID，並可選擇性地為私有模型和數據集提供訪問令牌。腳本應如下所示（如果您使用多節點集群，請更新 recipes.trainer.num_nodes）：

SAGEMAKER_TRAINING_LAUNCHER_DIR=$SAGEMAKER_TRAINING_LAUNCHER_DIR:-“$(pwd)”

HF_MODEL_NAME_OR_PATH=”deepseek-ai/DeepSeek-R1-Distill-Qwen-7B” # HuggingFace 預訓練模型名稱或路徑
HF_ACCESS_TOKEN=”hf_xxxx” # 可選 HuggingFace 訪問令牌

TRAIN_DIR=”/fsx/ubuntu/deepseek/data/train” # 訓練數據集的位置
VAL_DIR=”/fsx/ubuntu/deepseek/data/test” # 驗證數據集的位置

EXP_DIR=”/fsx/ubuntu/deepseek/results” # 保存實驗信息的位址，包括日誌、檢查點等

HYDRA_FULL_ERROR=1 python3 “$SAGEMAKER_TRAINING_LAUNCHER_DIR/main.py” \
   recipes=fine-tuning/deepseek/hf_deepseek_r1_distilled_qwen_7b_seq16k_gpu_fine_tuning \
   base_results_dir=”$SAGEMAKER_TRAINING_LAUNCHER_DIR/results” \
   recipes.run.name=”hf-deepseek-r1-distilled-qwen-7b-fine-tuning” \
   recipes.exp_manager.exp_dir=”$EXP_DIR” \
   recipes.trainer.num_nodes=1 \
   recipes.model.data.train_dir=”$TRAIN_DIR” \
   recipes.model.data.val_dir=”$VAL_DIR” \
   recipes.model.hf_model_name_or_path=”$HF_MODEL_NAME_OR_PATH” \
   recipes.model.hf_access_token=”$HF_ACCESS_TOKEN” \

您可以查看此微調任務的食譜，並根據需要覆蓋任何其他參數：

recipes_collection/recipes/fine-tuning/deepseek/hf_deepseek_r1_distilled_qwen_7b_seq16k_gpu_fine_tuning.yaml

通過運行啟動器腳本提交作業：

bash launcher_scripts/deepseek/run_hf_deepseek_r1_qwen_7b_seq16k_gpu_fine_tuning.sh

您可以使用 Slurm 命令（如 squeue 和 scontrol show）監控作業，以查看作業的狀態和相應的日誌。作業完成後，訓練好的模型也將在結果文件夾中可用，如以下代碼所示：

cd results
ls -R
.:
checkpoints experiment

./checkpoints:
full

./checkpoints/full:
steps_50

./checkpoints/full/steps_50:
config.json pytorch_model.bin

./experiment:
…

將微調後的模型檢查點上傳到 Amazon S3，以便使用驗證數據評估模型：

aws s3 cp /fsx/ s3://bucket_name/model_prefix/qwen7b –recursive

評估微調後的模型

要客觀評估您的微調模型，您可以在數據集的驗證部分運行評估作業。

您可以運行 SageMaker 訓練作業並使用 ROUGE 指標（ROUGE-1、ROUGE-2、ROUGE-L 和 ROUGE-L-Sum），這些指標測量機器生成的文本與人類撰寫的參考文本之間的相似性。SageMaker 訓練作業將計算基礎 DeepSeek-R1 Distill Qwen 7B 模型和微調後模型的 ROUGE 指標。您可以在 GitHub 的 sagemaker-distributed-training-workshop 中訪問 ROUGE 評估的代碼示例。請參考此筆記本以獲取詳細信息。

完成以下步驟：

定義存儲微調檢查點的 S3 路徑、實例類型和在訓練作業中使用的映像 uri：

trained_model =
instance_type = “ml.p4d.24xlarge”

image_uri = sagemaker.image_uris.retrieve(
   framework=”pytorch”,
   region=sagemaker_session.boto_session.region_name,
   version=”2.4″,
   instance_type=instance_type,
   image_scope=”training”
)
#763104351884.dkr.ecr.us-east-1.amazonaws.com/pytorch-training:2.4-gpu-py311

創建 ModelTrainer 函數以封裝評估腳本並定義輸入數據：

from sagemaker.modules.configs import Compute, InputData, OutputDataConfig, SourceCode, StoppingCondition
from sagemaker.modules.distributed import Torchrun
from sagemaker.modules.train import ModelTrainer

# 定義要運行的腳本
source_code = SourceCode(
   source_dir=”./scripts”,
   requirements=”requirements.txt”,
   entry_script=”evaluate_recipe.py”,
)

# 定義計算
…

# 定義 ModelTrainer
model_trainer = ModelTrainer(
   training_image=image_uri,
   source_code=source_code,
   compute=compute_configs,
…
   hyperparameters=
   “model_id”: model_id, # Hugging Face 模型 id
   “dataset_name”: dataset_name

)

# 傳遞輸入數據
train_input = InputData(
channel_name=”adapterdir”,
data_source=trained_model,
)

test_input = InputData(
channel_name=”testdata”,
data_source=test_dataset_s3_path, # 存儲訓練數據的 S3 路徑
)

# 檢查配置的輸入通道
data = [train_input, test_input]

提交訓練作業：

# 使用我們上傳的數據集作為輸入開始訓練作業
model_trainer.train(input_data_config=data, wait=True)

以下表格顯示了微調模型和基礎模型的任務輸出。

模型
Rouge 1
Rouge 2
Rouge L
Rouge L Sum

基礎
0.36362
0.08739
0.16345
0.3204

微調後
0.44232
0.13022
0.17769
0.38989

% 差異
21.64207
49.01703
8.7121
21.68871

我們的微調模型展示了顯著的效率，僅在一次訓練周期後，在推理任務上實現了約 22% 的整體提升。Rouge 2 分數的增長最為顯著，達到約 49%，這表明生成的摘要與參考摘要之間的對齊更好。

值得注意的是，初步實驗表明，通過延長訓練時間，這些結果可能會進一步提升。增加訓練周期的數量顯示出額外性能增益的良好潛力，同時保持計算效率。

清理

為了清理您的資源以避免產生更多費用，請遵循以下步驟：

刪除任何未使用的 SageMaker Studio 資源
（可選）刪除 SageMaker Studio 域
驗證您的訓練作業是否不再運行。為此，請在 SageMaker 控制台中選擇訓練並檢查訓練作業。
如果您創建了 HyperPod 集群，請刪除該集群以停止產生費用。如果您從 HyperPod 工作坊創建了網絡堆棧，請刪除該堆棧以清理虛擬私有雲 (VPC) 資源和 FSx for Lustre 卷。

結論

在這個兩部分的 DeepSeek-R1 系列的第一篇文章中，我們討論了 SageMaker HyperPod 食譜如何為組織提供一個強大而易於訪問的解決方案，以擴展其 AI 模型訓練能力，涵蓋包括 DeepSeek 在內的大型語言模型 (LLMs)。該架構通過其直觀的基於食譜的方法簡化了複雜的分散式訓練工作流程，將設置時間從幾週縮短到幾分鐘。

我們建議您通過探索 Amazon SageMaker HyperPod 文檔中的示例食譜來開始您的 LLM 客製化之旅。AWS AI/ML 社區提供了豐富的資源，包括工作坊和技術指導，以支持您的實施之旅。

要開始使用 SageMaker HyperPod 食譜，請訪問 GitHub 上的 sagemaker-hyperpod-recipes 存儲庫，以獲取全面的文檔和示例實現。我們的團隊將根據客戶反饋和新興的 ML 趨勢不斷擴展食譜生態系統，確保您擁有成功進行 AI 模型訓練所需的工具。

在我們的第二篇文章中，我們將討論如何進一步使用這些食譜來微調 DeepSeek-R1 671b 模型。敬請期待！

關於作者

Kanwaljit Khurmi 是 AWS 的全球生成式 AI 解決方案架構師。他與 AWS 產品團隊、工程部門和客戶合作，提供指導和技術支援，幫助他們提升其混合機器學習解決方案在 AWS 上的價值。Kanwaljit 專注於協助客戶處理容器化應用程式和高性能計算解決方案。

Bruno Pistone 是 AWS 的全球生成式 AI/ML 專家解決方案架構師，駐米蘭，意大利。他與 AWS 產品團隊和大型客戶合作，幫助他們充分理解其技術需求，設計充分利用 AWS 雲端和 Amazon 機器學習堆疊的 AI 和機器學習解決方案。他的專業包括：端到端機器學習、模型客製化和生成式 AI。他喜歡與朋友共度時光，探索新地方，和旅行到新目的地。

Arun Kumar Lokanatha 是 Amazon SageMaker 團隊的高級 ML 解決方案架構師。他專注於大型語言模型訓練工作負載，幫助客戶使用 SageMaker HyperPod、SageMaker 訓練作業和 SageMaker 分散式訓練構建 LLM 工作負載。在工作之外，他喜歡跑步、健行和烹飪。