⁉️FP16 与 BF16 用于 RL

通过 FP16 击败训练-推理不匹配 https://arxiv.org/pdf/2510.26788 显示使用 float16 比 bfloat16 更好

Float16 与 Bfloat16

有一篇论文标题为 "通过 FP16 克服训练-推理不匹配" https://arxiv.org/pdf/2510.26788 展示了在进行强化学习时使用 float16 精度相比使用 bfloat16 可以显著更好。

实际上，生成长度越长，使用 bfloat16 时情况越糟：

我们进行了调查，且 确实发现 float16 更稳定 比 bfloat16 具有更小得多的梯度范数，见 https://x.com/danielhanchen/status/1985557028295827482 以及 https://x.com/danielhanchen/status/1985562902531850472

🤯A100 级联注意力错误

根据 https://x.com/RichardYRLi/status/1984858850143715759 以及 https://yingru.notion.site/When-Speed-Kills-Stability-Demystifying-RL-Collapse-from-the-Training-Inference-Mismatch-271211a558b7808d8b12d403fd15edda，较旧的 vLLM 版本（0.11.0 之前）在 A100 和类似 GPU 上存在损坏的注意力机制。请更新 vLLM！如果我们检测到较旧的 vLLM 版本，在 Unsloth 强化学习期间我们默认也会禁用 vLLM 的级联注意力。

不同硬件也会改变结果，较新且更昂贵的 GPU 在推理端与训练端之间的 KL 差异更小：

🔥在 Unsloth RL 中使用 float16

要在 Unsloth GRPO 和 RL 中使用 float16 精度，你只需设置 dtype = torch.float16 我们会处理剩下的！

pip install unsloth vllm
import torch
max_seq_length = 2048 # 对于更长的推理轨迹可以增加
lora_rank = 32 # 更大的秩 = 更智能，但更慢

from unsloth import FastLanguageModel
    model_name = "unsloth/Qwen3-4B-Base",
    max_seq_length = max_seq_length,
    load_in_4bit = False, # LoRA 16 位时为 False
    fast_inference = True, # 启用 vLLM 快速推理
    max_lora_rank = lora_rank,
    gpu_memory_utilization = 0.9, # 若内存不足请降低
    
    dtype = torch.float16, # 使用 torch.float16、torch.bfloat16
)

上一页Advanced RL Docs 下一页内存高效 RL

最后更新于16天前

这有帮助吗？

hashtagFloat16 与 Bfloat16

hashtag🤯A100 级联注意力错误

hashtag🔥在 Unsloth RL 中使用 float16

Float16 与 Bfloat16

🤯A100 级联注意力错误

🔥在 Unsloth RL 中使用 float16