square-up-right在 AMD GPU 上使用 Unsloth 微调 LLM 的指南

学习如何使用 Unsloth 在 AMD GPU 上微调大型语言模型(LLM)。

现在您可以使用 Unsloth 在本地 AMD 环境上微调大型语言模型。Unsloth 支持 AMD Radeon RX、MI300X(192GB)GPU 等。

1

创建新的隔离环境(可选)

为了不破坏系统包,您可以创建一个隔离的 pip 环境。提醒检查您使用的 Python 版本!它可能是 pip3, pip3.13, python3, python.3.13 等等。

apt install python3.10-venv python3.11-venv python3.12-venv python3.13-venv -y

python -m venv unsloth_env
source unsloth_env/bin/activate
2

安装 PyTorch

从以下位置安装最新的 PyTorch、TorchAO、Xformers: https://pytorch.org/arrow-up-right 通过以下命令检查您的 ROCM 版本: amd-smi version 然后更改 https://download.pytorch.org/whl/rocm7.0 以匹配您的版本。

uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm7.0 --upgrade --force-reinstall

我们还编写了一个单行终端命令以提取正确的 ROCM 版本,以便使用时更方便。

ROCM_TAG="$({ command -v amd-smi >/dev/null 2>&1 && amd-smi version 2>/dev/null | awk -F'ROCm version: ' 'NF>1{split($2,a,"."); print "rocm"a[1]"."a[2]; ok=1; exit} END{exit !ok}'; } || { [ -r /opt/rocm/.info/version ] && awk -F. '{print "rocm"$1"."$2; exit}' /opt/rocm/.info/version; } || { command -v hipconfig >/dev/null 2>&1 && hipconfig --version 2>/dev/null | awk -F': *' '/HIP version/{split($2,a,"."); print "rocm"a[1]"."a[2]; ok=1; exit} END{exit !ok}'; } || { command -v dpkg-query >/dev/null 2>&1 && ver="$(dpkg-query -W -f="${Version}\n" rocm-core 2>/dev/null)" && [ -n "$ver" ] && awk -F'[.-]' '{print "rocm"$1"."$2; exit}' <<<"$ver"; } || { command -v rpm >/dev/null 2>&1 && ver="$(rpm -q --qf '%{VERSION}\n' rocm-core 2>/dev/null)" && [ -n "$ver" ] && awk -F'[.-]' '{print "rocm"$1"."$2; exit}' <<<"$ver"; })"; [ -n "$ROCM_TAG" ] && uv pip install torch torchvision torchaudio --index-url "https://download.pytorch.org/whl/$ROCM_TAG" --upgrade --force-reinstall
3

安装 Unsloth

安装 Unsloth 的专用 AMD 分支:

pip install --no-deps unsloth unsloth-zoo
pip install --no-deps git+https://github.com/unslothai/unsloth-zoo.git
pip install "unsloth[amd] @ git+https://github.com/unslothai/unsloth"
4

使用 Unsloth 开始微调!

就是这样。尝试我们的一些示例,位于我们的 Unsloth 笔记本 页面!

您可以查看我们的专用 微调强化学习 指南。

🔢 在 AMD GPU 上的强化学习

您可以使用我们的 📒gpt-oss RL 自动赢 2048arrow-up-right 示例在 MI300X(192GB)GPU 上运行。目标是使用强化学习自动玩并赢得 2048 游戏。LLM(gpt-oss 20b)会自动制定赢得 2048 游戏的策略,我们为获胜策略计算高奖励,为失败策略计算低奖励。

在大约 300 步左右后,奖励随时间增加!

强化学习的目标是最大化平均奖励以赢得 2048 游戏。

我们使用一台 AMD MI300X(192GB)机器运行了带 Unsloth 的 2048 强化学习示例,运行良好!

您还可以使用我们的 📒自动内核生成 强化学习 笔记本arrow-up-right 同样使用 gpt-oss 在 Python 中自动创建矩阵乘法内核。该笔记本还设计了多种方法来对抗奖励操纵。

我们用来自动创建这些内核的提示是:

例如,强化学习过程会学会如何在 Python 内部应用 Strassen 算法以更快地进行矩阵乘法。

📚AMD 免费一键笔记本

AMD 提供配备以下资源的一键笔记本: 免费的 192GB VRAM MI300X GPU 通过他们的开发云。完全免费训练大型模型(无需注册或信用卡):

您可以通过在任何 Unsloth 笔记本前添加以下前缀来使用: https://oneclickamd.ai/github/unslothai/notebooks/blob/main/nbUnsloth 笔记本 通过将链接从 https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Gemma3_(270M).ipynbarrow-up-right 更改为 https://oneclickamd.ai/github/unslothai/notebooks/blob/main/nb/Gemma3_(270M).ipynbarrow-up-right

最后更新于

这有帮助吗?