使用 Blackwell、RTX 50 系列与 Unsloth 微调 LLM

通过我们的分步指南,学习如何在 NVIDIA 的 Blackwell RTX 50 系列和 B200 GPU 上微调 LLM。

Unsloth 现在支持 NVIDIA 的 Blackwell 架构 GPU,包括 RTX 50 系列 GPU(5060–5090)、RTX PRO 6000,以及 B200、B40、GB100、GB102 等 GPU!你可以在这里阅读官方 NVIDIA 博客文章.

Unsloth 现在兼容 2018 年及以后发布的每一款 NVIDIA GPU,包括 DGX Spark.

我们的新 Docker 镜像 支持 Blackwell。运行 Docker 镜像并开始训练! 指南

Pip 安装

只需安装 Unsloth:

pip install unsloth

如果你看到问题,另一个选项是创建一个单独的隔离环境:

python -m venv unsloth
source unsloth/bin/activate
pip install unsloth

请注意,它可能是 pip3pip3.13 并且也是 python3python3.13

你可能会遇到一些 Xformers 问题,在这种情况下你应该从源码构建:

# 先卸载之前库安装的 xformers
pip uninstall xformers -y

# 克隆并构建
pip install ninja
export TORCH_CUDA_ARCH_LIST="12.0"
git clone --depth=1 https://github.com/facebookresearch/xformers --recursive
cd xformers && python setup.py install && cd ..

Docker

unsloth/unsloth 是 Unsloth 唯一的 Docker 镜像。对于 Blackwell 和 50 系列 GPU,请使用同一个镜像——无需单独的镜像。

如需安装说明,请遵循我们的 Unsloth Docker 指南.

uv

uv(高级)

安装顺序很重要,因为我们希望用特定版本覆盖捆绑的依赖项(即 xformerstriton).

  1. 我更喜欢使用 uv 而不是 pip 因为它更快,也更擅长解决依赖关系,尤其是对于依赖于 torch 但在这种情况下需要特定 CUDA 版本的库。

    安装 uv

    创建项目目录和虚拟环境:

  2. 安装 vllm

    请注意,我们必须指定 cu128,否则 vllm 将安装 torch==2.7.0 但使用 cu126.

  3. 安装 unsloth 依赖项

    如果你注意到由于 Xformers 导致的奇怪解析问题,也可以不使用 Xformers,直接从源码安装 Unsloth:

  4. 下载并构建 xformers (可选)

    Xformers 是可选的,但它确实更快且占用更少内存。如果你不想使用 Xformers,我们将使用 PyTorch 原生的 SDPA。从源码构建 Xformers 可能很慢,请注意!

    请注意,我们必须显式设置 TORCH_CUDA_ARCH_LIST=12.0.

  5. transformers 安装任意版本的 transformers,但最好获取最新版本。

Conda 或 mamba(高级)

  1. 安装 conda/mamba

    运行安装脚本

    创建 conda 或 mamba 环境

    激活新创建的环境

  2. 安装 vllm

    确保你位于已激活的 conda/mamba 环境中。你应该能在终端提示符前看到你的环境名称作为前缀,像这样你的 (unsloth-blackwell)user@machine:

    请注意,我们必须指定 cu128,否则 vllm 将安装 torch==2.7.0 但使用 cu126.

  3. 安装 unsloth 依赖项

    确保你位于已激活的 conda/mamba 环境中。你应该能在终端提示符前看到你的环境名称作为前缀,像这样你的 (unsloth-blackwell)user@machine:

  4. 下载并构建 xformers (可选)

    Xformers 是可选的,但它确实更快且占用更少内存。如果你不想使用 Xformers,我们将使用 PyTorch 原生的 SDPA。从源码构建 Xformers 可能很慢,请注意!

    你应该能在终端提示符前看到你的环境名称作为前缀,像这样你的 (unsloth-blackwell)user@machine:

    请注意,我们必须显式设置 TORCH_CUDA_ARCH_LIST=12.0.

  5. 更新 triton

    确保你位于已激活的 conda/mamba 环境中。你应该能在终端提示符前看到你的环境名称作为前缀,像这样你的 (unsloth-blackwell)user@machine:

    triton>=3.3.1Blackwell 支持所必需的。

  6. Transformers 安装任意版本的 transformers,但最好获取最新版本。

如果你使用 mamba 作为包管理器,只需将上面显示的所有命令中的 conda 替换为 mamba。

WSL 特定说明

如果你使用 WSL(Windows Subsystem for Linux)并在 xformers 编译期间遇到问题(提醒:Xformers 是可选的,但训练更快),请按照以下额外步骤操作:

  1. 增加 WSL 内存限制 创建或编辑 WSL 配置文件:

    进行这些更改后,重启 WSL:

  2. 安装 xformers 使用以下命令安装针对 WSL 优化编译的 xformers:

    --no-build-isolation 标志有助于避免 WSL 环境中的潜在构建问题。

最后更新于

这有帮助吗?