👁️🗨️Apprentissage par renforcement vision (VLM RL)
Entraînez des modèles vision/multimodaux via GRPO et RL avec Unsloth !
os.environ['UNSLOTH_VLLM_STANDBY'] = '1' # Pour activer GRPO économe en mémoire avec vLLM
model, tokenizer = FastVisionModel.from_pretrained(
model_name = "Qwen/Qwen2.5-VL-7B-Instruct",
max_seq_length = 16384, # Doit être aussi grand pour insérer l'image dans le contexte
load_in_4bit = True, # False pour LoRA 16bit
fast_inference = True, # Activer l'inférence rapide vLLM
gpu_memory_utilization = 0.8, # Réduire si mémoire insuffisante
)# Ajouter l'adaptateur LoRA au modèle pour un ajustement fin efficace en paramètres
model = FastVisionModel.get_peft_model(
model,
finetune_vision_layers = False,# fast_inference ne prend pas encore en charge finetune_vision_layers :(
finetune_language_layers = True, # False si vous n'affinez pas les couches de langage
finetune_attention_modules = True, # False si vous n'affinez pas les couches d'attention
finetune_mlp_modules = True, # False si vous n'affinez pas les couches MLP
r = lora_rank, # Choisissez n'importe quel nombre > 0 ! Suggestions : 8, 16, 32, 64, 128
lora_alpha = lora_rank*2, # *2 accélère l'entraînement
use_gradient_checkpointing = "unsloth", # Réduit l'utilisation de la mémoire
random_state = 3407,
)🦋Problèmes et particularités du RL Vision Qwen 2.5 VL


🏅Fonctions de récompense pour réduire les sorties incompréhensibles
🏁Reinforcement Learning GSPO




Mis à jour
Ce contenu vous a-t-il été utile ?

