sparkle使用 NVIDIA DGX Spark 与 Unsloth 微调 LLM

关于如何在 NVIDIA DGX Spark 上对 OpenAI gpt-oss 进行微调和强化学习 (RL) 的教程。

Unsloth 使得在 NVIDIA DGX™ Spark 上对最大 200B 参数 的大型语言模型进行本地微调成为可能。借助 128 GB 的统一内存,您可以训练诸如 gpt-oss-120b等大型模型,并在 DGX Spark 上直接运行或部署推理。

如在 OpenAI DevDayarrow-up-right所示,gpt-oss-20b 曾在 DGX Spark 上使用 RL 和 Unsloth 训练以自动赢得 2048。您可以在 DGX Spark 的 Docker 容器或虚拟环境中使用 Unsloth 进行训练。

在本教程中,我们将在 DGX Spark 上安装 Unsloth 后,使用 Unsloth 笔记本通过 RL 训练 gpt-oss-20b。gpt-oss-120b 将使用大约 68GB 的统一内存。

在 1,000 步和 4 小时的 RL 训练后,gpt-oss 模型在 2048 上大大优于原始模型,且更长时间的训练会进一步提升结果。

您可以观看 Unsloth 在 OpenAI DevDay 2025 上的展示 此处arrow-up-right.
使用 RL 训练的 gpt-oss 在 2048 上持续表现更佳。

⚡ 逐步教程

1

从 DGX Spark 的 Unsloth Docker 镜像开始

首先,使用 DGX Spark Dockerfile 构建 Docker 镜像,该文件可以 在此找到arrow-up-right。您也可以在 DGX Spark 的终端中运行以下命令:

然后,使用保存的 Dockerfile 构建训练用 Docker 镜像:

chevron-right您也可以点击查看完整的 DGX Spark Dockerfilehashtag
2

启动容器

以 GPU 访问和卷挂载启动训练容器:

3

启动 Jupyter 并运行笔记本

在容器内,启动 Jupyter 并运行所需的笔记本。您可以使用“强化学习 gpt-oss 20b 赢取 2048” 笔记本在此arrow-up-right。实际上,所有 Unsloth 笔记本arrow-up-right 都可在 DGX Spark 中运行,包括 120b 笔记本!只需移除安装单元格即可。

下面的命令也可用于运行 RL 笔记本。Jupyter Notebook 启动后,打开“gpt_oss_20B_RL_2048_Game.ipynb

别忘了 Unsloth 还允许您 保存并运行 微调后的模型,以便您之后可以在本地直接将它们部署到 DGX Spark 上。

非常感谢 Lakshmi Ramesharrow-up-rightBarath Anandanarrow-up-right 来自 NVIDIA 的帮助,他们协助 Unsloth 在 DGX Spark 上发布并构建了该 Docker 镜像。

统一内存使用情况

gpt-oss-120b QLoRA 4-bit 微调将使用大约 68GB 的统一内存。您的统一内存使用情况在 之前 (左)和 之后 (右)训练时应如下所示:

就是这样!祝您在 NVIDIA DGX Spark 上完全本地训练和运行 LLM 玩得开心!

视频教程

感谢来自 AnythingLLMarrow-up-right 的 Tim 提供了在 DGX Spark 上使用 Unsloth 进行微调的精彩教程:

最后更新于

这有帮助吗?