在 NVIDIA DGX Station 上使用 Unsloth 微调 LLM

NVIDIA DGX Station 教程：如何使用 Unsloth 的笔记本进行微调。

现在，您可以在 NVIDIA DGX Station 上使用本地训练 LLM，使用 Unsloth。DGX Station 拥有超过 ~200GB 显存 以及超过 700GB 的统一 GPU/CPU 内存 并将 Grace CPU 与 Blackwell GPU 结合在一个紧密互连的系统中，专为大规模 AI 工作负载设计。通过 NVLink-C2C 连接，CPU 与 GPU 虽然仍然各自独立，但协同工作比传统的 CPU-GPU 配置高效得多。

在本指南中，我们将使用 Unsloth 笔记本训练 Qwen3.5 和 gpt-oss-120b 在 DGX Station 上。感谢 NVIDIA 提供部分早期访问的 DGX Station 硬件以测试 Unsloth！

快速开始

您将需要 python3 已安装，特别是需要开发头文件。在我们的系统上，我们有 python 3.12 因此我们将安装 3.12 的开发头文件。

sudo apt update
sudo apt install python3.12-dev

然后创建一个新的虚拟环境来安装 Unsloth。这样我们可以最小化依赖冲突并保留当前工作环境的状态。

python3 -m venv .unsloth
source .unsloth/bin/activate
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130

首先从 torch 安装 cuda 13 索引，否则我们可能会得到 CPU 版本或体系结构与功能不匹配的版本！

现在我们可以安装 Unsloth：

pip install unsloth

现在让我们安装 xformers 并（可选地）从源码构建 flash-attention 这两个包都需要时间，因此在构建时请耐心等待。

pip install --no-deps --no-build-isolation xformers==0.0.33.post1
# 可选的 flash-attn
# 克隆并构建（针对 B300 的 sm_100） 
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention 
# B300 = sm_100，显式设置架构 
TORCH_CUDA_ARCH_LIST="10.0" MAX_JOBS=8 pip install . --no-build-isolation
cd ..

对于 Qwen 3.5 MoE，我们需要下载两个内核包 flash-linear-attention 和 causal-conv1d 以提高速度。

pip install --no-build-isolation flash-linear-attention causal_conv1d==1.6.0

如果您还没有笔记本客户端，请安装一个。对于本指南，我们将使用 Jupyter Notebook：

cd ..
pip install notebook
pip install ipywidgets

最后我们下载实际用于运行的 Unsloth 笔记本。共有 250 多个用于 LLM 训练的笔记本以及 Python 脚本。

git clone https://github.com/unslothai/notebooks.git
cd notebooks

训练教程

现在我们可以启动 Jupyter Notebook 并在浏览器中导航到 UI。

jupyter notebook

复制并粘贴 localhost 站点带有 token 参数并将其粘贴到浏览器中。您应看到类似于：

该 nb 文件夹包含所有可运行的笔记本。

Qwen3.5-35B-A3B 训练

打开文件 nb/Qwen3_5_MoE.ipynb。跳过安装部分，因为我们之前已经安装了所有需要的内容。导航到 Unsloth 部分并从那里开始执行单元。

该笔记本涵盖模型设置、数据集准备和训练器配置。每一步可能都需要一些时间，因为我们正在下载非常大的模型、初始化数十亿个权重，并进一步优化以提高运行速度。

使用默认设置训练非常快。在 DGX Station 上内存充足，因此您可以调整默认训练超参数以真正挑战内存和计算。一旦训练完成，您可以保存模型以备后用，将模型推送到 Hugging Face Hub 与他人共享，或导出为量化格式。

gpt-oss-120b 训练

打开文件 nb/gpt-oss-(120B)_A100-Fine-tuning.ipynb。跳过安装部分，因为我们已经安装了先决条件，并导航到 Unsloth 部分。我们可以从那里开始运行笔记本。该笔记本将使用大约 72 GB 的 GPU 内存，运行大约 10 分钟。

每个单元格可能需要一些时间来运行，因为我们需要下载模型、初始化权重，并进一步优化以获得更快的体验。笔记本涵盖数据集预处理和训练器设置。一旦我们到达 trainer.train() 单元并执行，训练就会开始。

现在完成后，我们可以保存模型以备后用，推送到 Hugging Face Hub 与全世界共享，或将其导出为 GGUF 格式。

在以下链接阅读有关 NVIDIA DGX Station 的更多信息： https://www.nvidia.com/en-us/products/workstations/dgx-station/

上一页OpenAI Codex 下一页Multi-GPU Training Unsloth

最后更新于6天前

这有帮助吗？

hashtag快速开始

hashtag训练教程

hashtagQwen3.5-35B-A3B 训练

hashtaggpt-oss-120b 训练

快速开始

训练教程

Qwen3.5-35B-A3B 训练

gpt-oss-120b 训练