microchip-ai在 NVIDIA DGX Station 上使用 Unsloth 微调 LLM

NVIDIA DGX Station 教程:如何使用 Unsloth 的笔记本进行微调。

现在,您可以在 NVIDIA DGX Station 上使用本地训练 LLM,使用 Unslotharrow-up-right。DGX Station 拥有超过 ~200GB 显存 以及超过 700GB 的统一 GPU/CPU 内存 并将 Grace CPU 与 Blackwell GPU 结合在一个紧密互连的系统中,专为大规模 AI 工作负载设计。通过 NVLink-C2C 连接,CPU 与 GPU 虽然仍然各自独立,但协同工作比传统的 CPU-GPU 配置高效得多。

在本指南中,我们将使用 Unsloth 笔记本训练 Qwen3.5gpt-oss-120b 在 DGX Station 上。感谢 NVIDIA 提供部分早期访问的 DGX Station 硬件以测试 Unsloth!

快速开始

您将需要 python3 已安装,特别是需要开发头文件。在我们的系统上,我们有 python 3.12 因此我们将安装 3.12 的开发头文件。

sudo apt update
sudo apt install python3.12-dev

然后创建一个新的虚拟环境来安装 Unslotharrow-up-right。这样我们可以最小化依赖冲突并保留当前工作环境的状态。

python3 -m venv .unsloth
source .unsloth/bin/activate
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130
circle-exclamation

现在我们可以安装 Unsloth:

现在让我们安装 xformers 并(可选地)从源码构建 flash-attention 这两个包都需要时间,因此在构建时请耐心等待。

对于 Qwen 3.5 MoE,我们需要下载两个内核包 flash-linear-attentioncausal-conv1d 以提高速度。

如果您还没有笔记本客户端,请安装一个。对于本指南,我们将使用 Jupyter Notebook:

最后我们下载实际用于运行的 Unsloth 笔记本。共有 250 多个用于 LLM 训练的笔记本以及 Python 脚本。

训练教程

现在我们可以启动 Jupyter Notebook 并在浏览器中导航到 UI。

复制并粘贴 localhost 站点带有 token 参数并将其粘贴到浏览器中。您应看到类似于:

nb 文件夹包含所有可运行的笔记本。

Qwen3.5-35B-A3B 训练

打开文件 nb/Qwen3_5_MoE.ipynb。跳过安装部分,因为我们之前已经安装了所有需要的内容。导航到 Unsloth 部分并从那里开始执行单元。

该笔记本涵盖模型设置、数据集准备和训练器配置。每一步可能都需要一些时间,因为我们正在下载非常大的模型、初始化数十亿个权重,并进一步优化以提高运行速度。

使用默认设置训练非常快。在 DGX Station 上内存充足,因此您可以调整默认训练超参数以真正挑战内存和计算。一旦训练完成,您可以保存模型以备后用,将模型推送到 Hugging Face Hub 与他人共享,或导出为量化格式。

gpt-oss-120b 训练

打开文件 nb/gpt-oss-(120B)_A100-Fine-tuning.ipynb。跳过安装部分,因为我们已经安装了先决条件,并导航到 Unsloth 部分。我们可以从那里开始运行笔记本。该笔记本将使用大约 72 GB 的 GPU 内存,运行大约 10 分钟。

每个单元格可能需要一些时间来运行,因为我们需要下载模型、初始化权重,并进一步优化以获得更快的体验。笔记本涵盖数据集预处理和训练器设置。一旦我们到达 trainer.train() 单元并执行,训练就会开始。

现在完成后,我们可以保存模型以备后用,推送到 Hugging Face Hub 与全世界共享,或将其导出为 GGUF 格式。

在以下链接阅读有关 NVIDIA DGX Station 的更多信息: https://www.nvidia.com/en-us/products/workstations/dgx-station/arrow-up-right

最后更新于

这有帮助吗?