在 AMD GPU 上使用 Unsloth 微调 LLM 的指南

了解如何使用 Unsloth 在 AMD GPU 上微调大型语言模型（LLM）。

现在您可以使用 Unsloth 在本地 AMD 环境上微调大型语言模型。Unsloth 支持 AMD Radeon RX、MI300X（192GB）GPU 等。

创建新的隔离环境（可选）

为了不破坏系统包，您可以创建一个隔离的 pip 环境。提醒检查您使用的 Python 版本！它可能是 pip3, pip3.13, python3, python.3.13 等等。

apt install python3.10-venv python3.11-venv python3.12-venv python3.13-venv -y

python -m venv unsloth_env
source unsloth_env/bin/activate

安装 PyTorch

从以下位置安装最新的 PyTorch、TorchAO、Xformers： https://pytorch.org/ 通过以下命令检查您的 ROCM 版本： amd-smi version 然后更改 https://download.pytorch.org/whl/rocm7.0 以匹配您的版本。

uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm7.0 --upgrade --force-reinstall

我们还编写了一个单行终端命令以提取正确的 ROCM 版本，以便使用时更方便。

ROCM_TAG="$({ command -v amd-smi >/dev/null 2>&1 && amd-smi version 2>/dev/null | awk -F'ROCm version: ' 'NF>1{split($2,a,"."); print "rocm"a[1]"."a[2]; ok=1; exit} END{exit !ok}'; } || { [ -r /opt/rocm/.info/version ] && awk -F. '{print "rocm"$1"."$2; exit}' /opt/rocm/.info/version; } || { command -v hipconfig >/dev/null 2>&1 && hipconfig --version 2>/dev/null | awk -F': *' '/HIP version/{split($2,a,"."); print "rocm"a[1]"."a[2]; ok=1; exit} END{exit !ok}'; } || { command -v dpkg-query >/dev/null 2>&1 && ver="$(dpkg-query -W -f="${Version}\n" rocm-core 2>/dev/null)" && [ -n "$ver" ] && awk -F'[.-]' '{print "rocm"$1"."$2; exit}' <<<"$ver"; } || { command -v rpm >/dev/null 2>&1 && ver="$(rpm -q --qf '%{VERSION}\n' rocm-core 2>/dev/null)" && [ -n "$ver" ] && awk -F'[.-]' '{print "rocm"$1"."$2; exit}' <<<"$ver"; })"; [ -n "$ROCM_TAG" ] && uv pip install torch torchvision torchaudio --index-url "https://download.pytorch.org/whl/$ROCM_TAG" --upgrade --force-reinstall

安装 Unsloth

安装 Unsloth 的专用 AMD 分支：

pip install --no-deps unsloth unsloth-zoo
pip install --no-deps git+https://github.com/unslothai/unsloth-zoo.git
pip install "unsloth[amd] @ git+https://github.com/unslothai/unsloth"

使用 Unsloth 开始微调！

就是这样。尝试我们的一些示例，位于我们的 Unsloth 笔记本 页面！

您可以查看我们的专用微调或强化学习指南。

🔢 在 AMD GPU 上的强化学习

您可以使用我们的 📒gpt-oss RL 自动赢 2048 示例在 MI300X（192GB）GPU 上运行。目标是使用强化学习自动玩并赢得 2048 游戏。LLM（gpt-oss 20b）会自动制定赢得 2048 游戏的策略，我们为获胜策略计算高奖励，为失败策略计算低奖励。

在大约 300 步左右后，奖励随时间增加！

强化学习的目标是最大化平均奖励以赢得 2048 游戏。

我们使用一台 AMD MI300X（192GB）机器运行了带 Unsloth 的 2048 强化学习示例，运行良好！

您还可以使用我们的 📒自动内核生成强化学习笔记本同样使用 gpt-oss 在 Python 中自动创建矩阵乘法内核。该笔记本还设计了多种方法来对抗奖励操纵。

我们用来自动创建这些内核的提示是：

仅使用原生 Python 代码创建一个新的快速矩阵乘法函数。
您将获得一个数字的列表的列表。
使用下面的格式将您的新函数用反引号输出：
```
python
def matmul(A, B):
    return ...
```

例如，强化学习过程会学会如何在 Python 内部应用 Strassen 算法以更快地进行矩阵乘法。

📚AMD 免费一键笔记本

AMD 提供配备以下资源的一键笔记本： 免费的 192GB VRAM MI300X GPU 通过他们的开发云。完全免费训练大型模型（无需注册或信用卡）：

Loading GitHub Notebook - AMD Dev Cloudoneclickamd.ai

您可以通过在任何 Unsloth 笔记本前添加以下前缀来使用： https://oneclickamd.ai/github/unslothai/notebooks/blob/main/nb 在 Unsloth 笔记本通过将链接从 https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Gemma3_(270M).ipynb 更改为 https://oneclickamd.ai/github/unslothai/notebooks/blob/main/nb/Gemma3_(270M).ipynb

最后更新于25天前

这有帮助吗？

hashtag🔢 在 AMD GPU 上的强化学习

hashtag📚AMD 免费一键笔记本

🔢 在 AMD GPU 上的强化学习

📚AMD 免费一键笔记本