👁️🗨️视觉强化学习(VLM RL)
通过 Unsloth 使用 GRPO 和 RL 训练视觉/多模态模型!
os.environ['UNSLOTH_VLLM_STANDBY'] = '1' # 启用与 vLLM 一起的节省内存的 GRPO
model, tokenizer = FastVisionModel.from_pretrained(
model_name = "Qwen/Qwen2.5-VL-7B-Instruct",
max_seq_length = 16384, # 必须这么大以将图像放入上下文
load_in_4bit = True, # LoRA 16 位时为 False
fast_inference = True, # 启用 vLLM 快速推理
gpu_memory_utilization = 0.8, # 内存不足时降低该值
)# 将 LoRA 适配器添加到模型以进行参数高效的微调
model = FastVisionModel.get_peft_model(
model,
finetune_vision_layers = False,# fast_inference 目前还不支持 finetune_vision_layers :(
finetune_language_layers = True, # 如果不微调语言层则为 False
finetune_attention_modules = True, # 如果不微调注意力层则为 False
finetune_mlp_modules = True, # 如果不微调 MLP 层则为 False
r = lora_rank, # 选择任意大于 0 的数!建议 8、16、32、64、128
lora_alpha = lora_rank*2, # *2 可加速训练
use_gradient_checkpointing = "unsloth", # 降低内存使用
random_state = 3407,
)🦋Qwen 2.5 VL 视觉强化学习的问题与怪异行为


🏅用于减少乱码的奖励函数
🏁GSPO 强化学习




最后更新于
这有帮助吗?

