👁️🗨️Vision Reinforcement Learning (VLM RL)
Trainiere Vision-/multimodale Modelle über GRPO und RL mit Unsloth!
os.environ['UNSLOTH_VLLM_STANDBY'] = '1' # Um speichereffizientes GRPO mit vLLM zu aktivieren
model, tokenizer = FastVisionModel.from_pretrained(
model_name = "Qwen/Qwen2.5-VL-7B-Instruct",
max_seq_length = 16384, # Muss so groß sein, um das Bild im Kontext unterzubringen
load_in_4bit = True, # False für LoRA 16bit
fast_inference = True, # vLLM Fast-Inferenz aktivieren
gpu_memory_utilization = 0.8, # Reduzieren, wenn kein Speicher verfügbar ist
)# Fügen Sie dem Modell einen LoRA-Adapter für parameter-effizientes Fine-Tuning hinzu
model = FastVisionModel.get_peft_model(
model,
finetune_vision_layers = False,# fast_inference unterstützt finetune_vision_layers noch nicht :(
finetune_language_layers = True, # False, wenn die Sprachschichten nicht feinabgestimmt werden
finetune_attention_modules = True, # False, wenn die Attention-Schichten nicht feinabgestimmt werden
finetune_mlp_modules = True, # False, wenn die MLP-Schichten nicht feinabgestimmt werden
r = lora_rank, # Wählen Sie eine beliebige Zahl > 0! Vorgeschlagen 8, 16, 32, 64, 128
lora_alpha = lora_rank*2, # *2 beschleunigt das Training
use_gradient_checkpointing = "unsloth", # Reduziert den Speicherverbrauch
random_state = 3407,
)🦋Qwen 2.5 VL Vision RL Probleme und Eigenheiten


🏅Belohnungsfunktionen zur Reduzierung von Wirrwarr
🏁GSPO Reinforcement Learning




Zuletzt aktualisiert
War das hilfreich?

