square-up-right与 Unsloth 的 AMD AI 强化学习黑客松

从 Unsloth 的创建者 Daniel Han 那里学习使用 Unsloth 的强化学习(RL)实践技术。

您可以在此查看 Unsloth 的 GitHub 仓库: https://github.com/unslothai/unslotharrow-up-right

这是我们 AMD 微调笔记本的链接:

https://github.com/unslothai/notebooks/blob/main/nb/gpt_oss_(20B)_Reinforcement_Learning_2048_Game_BF16.ipynbarrow-up-right

如果想升级 Unsloth / Unsloth Zoo:

关于 bitsandbytes:

如果您看到:

不要使用 UV_SKIP_WHEEL_FILENAME_CHECK,取而代之只使用 pip install "unsloth[amd] @ git+https://github.com/unslothai/unsloth" (不是 uv)因为 uv 会破坏 bitsandbytes。若可能的话,也许在 PR 中添加检查来捕捉这些问题。

有关 AMD 安装说明,您可以在此查看我们的指南:

square-up-rightAMDchevron-right

最后更新于

这有帮助吗?