⁉️FP16 与 BF16 用于 RL
通过 FP16 击败训练-推理不匹配 https://arxiv.org/pdf/2510.26788 显示使用 float16 比 bfloat16 更好
最后更新于
这有帮助吗?
通过 FP16 击败训练-推理不匹配 https://arxiv.org/pdf/2510.26788 显示使用 float16 比 bfloat16 更好
最后更新于
这有帮助吗?
这有帮助吗?
pip install unsloth vllm
import torch
max_seq_length = 2048 # 对于更长的推理轨迹可以增加
lora_rank = 32 # 更大的秩 = 更智能,但更慢
from unsloth import FastLanguageModel
model_name = "unsloth/Qwen3-4B-Base",
max_seq_length = max_seq_length,
load_in_4bit = False, # LoRA 16 位时为 False
fast_inference = True, # 启用 vLLM 快速推理
max_lora_rank = lora_rank,
gpu_memory_utilization = 0.9, # 若内存不足请降低
dtype = torch.float16, # 使用 torch.float16、torch.bfloat16
)