microchip在 Blackwell、RTX 50 系列与 Unsloth 上微调 LLM

了解如何使用我们的分步指南在 NVIDIA 的 Blackwell RTX 50 系列与 B200 GPU 上微调 LLM。

Unsloth 现在支持 NVIDIA 的 Blackwell 架构 GPU,包括 RTX 50 系列 GPU(5060–5090)、RTX PRO 6000,以及 B200、B40、GB100、GB102 等 GPU!您可以在官方 NVIDIA 博客文章 在此 阅读arrow-up-right.

Unsloth 现在兼容自 2018 年以来的所有 NVIDIA GPU,包括 DGX Spark.

我们的新 Docker 镜像 支持 Blackwell。运行该 Docker 镜像并开始训练! 指南

Pip 安装

只需安装 Unsloth:

对于此设置将不起作用,因为我们需要使用最新的 PyTorch、Triton 和相关包。使用以下特定命令安装 Unsloth:

如果出现问题,另一种选择是创建一个单独的隔离环境:

python -m venv unsloth
source unsloth/bin/activate
对于此设置将不起作用,因为我们需要使用最新的 PyTorch、Triton 和相关包。使用以下特定命令安装 Unsloth:

注意这可能是 pip3pip3.13 以及 python3python3.13

您可能会遇到一些 Xformers 问题,在这种情况下应从源代码构建:

# 首先卸载之前库安装的 xformers
pip uninstall xformers -y

# 克隆并构建
pip install ninja
export TORCH_CUDA_ARCH_LIST="12.0"
git clone --depth=1 https://github.com/facebookresearch/xformers --recursive
cd xformers && python setup.py install && cd ..

Docker

unsloth/unslotharrow-up-right 是 Unsloth 的唯一 Docker 镜像。对于 Blackwell 和 50 系列 GPU,使用相同的镜像即可——无需单独的镜像。

有关安装说明,请遵循我们的 Unsloth Docker 指南.

uv

uv(高级)

安装顺序很重要,因为我们希望用特定版本覆盖捆绑的依赖(即, xformerstriton).

  1. 我更喜欢使用 uv 而不是 pip 因为它更快且更善于解析依赖,特别是对那些依赖于 torch 但在这种情况下需要特定的 CUDA 版本。

    安装 uv

    创建项目目录和虚拟环境:

  2. 安装 vllm

    注意我们必须指定 cu128,否则 vllm 将安装 torch==2.7.0 但会安装带有 cu126.

  3. 安装 unsloth 依赖项

    如果您注意到由于 Xformers 导致的奇怪解析问题,您也可以从源码在不使用 Xformers 的情况下安装 Unsloth:

  4. 下载并构建 xformers (可选)

    Xformers 是可选的,但它确实更快且占用更少内存。如果您不想使用 Xformers,我们将使用 PyTorch 的原生 SDPA。请注意,从源代码构建 Xformers 可能很慢,敬请注意!

    请注意我们必须明确设置 TORCH_CUDA_ARCH_LIST=12.0.

  5. transformers 安装任意版本的 transformers,但最好获取最新版本。

Conda 或 mamba(高级)

  1. 安装 conda/mamba

    运行安装脚本

    创建 conda 或 mamba 环境

    激活新创建的环境

  2. 安装 vllm

    确保您处于已激活的 conda/mamba 环境中。您应该在终端提示符前看到环境名称作为前缀,例如 (unsloth-blackwell)user@machine:

    注意我们必须指定 cu128,否则 vllm 将安装 torch==2.7.0 但会安装带有 cu126.

  3. 安装 unsloth 依赖项

    确保您处于已激活的 conda/mamba 环境中。您应该在终端提示符前看到环境名称作为前缀,例如 (unsloth-blackwell)user@machine:

  4. 下载并构建 xformers (可选)

    Xformers 是可选的,但它确实更快且占用更少内存。如果您不想使用 Xformers,我们将使用 PyTorch 的原生 SDPA。请注意,从源代码构建 Xformers 可能很慢,敬请注意!

    您应该在终端提示符前看到环境名称作为前缀,例如 (unsloth-blackwell)user@machine:

    请注意我们必须明确设置 TORCH_CUDA_ARCH_LIST=12.0.

  5. 更新 triton

    确保您处于已激活的 conda/mamba 环境中。您应该在终端提示符前看到环境名称作为前缀,例如 (unsloth-blackwell)user@machine:

    triton>=3.3.1 是 对 支持 所 必需 的。 Blackwell 支持。

  6. Transformers 安装任意版本的 transformers,但最好获取最新版本。

如果您将 mamba 用作包管理器,只需将上面显示的所有 conda 命令替换为 mamba 即可。

WSL 特定说明

如果您在使用 WSL(Windows 子系统 Linux)并在 xformers 编译过程中遇到问题(提醒:Xformers 是可选的,但在训练中会更快),请遵循以下附加步骤:

  1. 增加 WSL 内存限制 创建或编辑 WSL 配置文件:

    在进行这些更改后,重启 WSL:

  2. 安装 xformers 使用以下命令以针对 WSL 优化的编译方式安装 xformers:

    --no-build-isolation 标志有助于避免在 WSL 环境中可能出现的构建问题。

最后更新于

这有帮助吗?