与 Unsloth 的 AMD AI 强化学习黑客松
从 Unsloth 的创建者 Daniel Han 那里学习使用 Unsloth 的强化学习(RL)实践技术。
最后更新于
这有帮助吗?
从 Unsloth 的创建者 Daniel Han 那里学习使用 Unsloth 的强化学习(RL)实践技术。
最后更新于
这有帮助吗?
这有帮助吗?
wget 'https://raw.githubusercontent.com/unslothai/notebooks/refs/heads/main/nb/gpt_oss_(20B)_Reinforcement_Learning_2048_Game_BF16.ipynb'uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm7.0 --upgrade --force-reinstall
pip uninstall unsloth unsloth_zoo -y && \
pip install git+https://github.com/unslothai/unsloth-zoo git+https://github.com/unslothai/unsloth --no-deps --force-reinstall --no-cache-dirpip install "unsloth[amd] @ git+https://github.com/unslothai/unsloth"错误:安装失败:bitsandbytes-1.33.7rc0-py3-none-manylinux_2_24_x86_64.whl (bitsandbytes==1.33.7rc0 (来自 https://github.com/bitsandbytes-foundation/bitsandbytes/releases/download/continuous-release_main/bitsandbytes-1.33.7.preview-py3-none-manylinux_2_24_x86_64.whl)) 原因:Wheel 版本与文件名不匹配 (0.49.2.dev0 != 1.33.7rc0),这表示 Wheel 格式不正确。如果这是故意的,请设置 UV_SKIP_WHEEL_FILENAME_CHECK=1。