Apprentissage par renforcement GSPO

Entraînez avec GSPO (Group Sequence Policy Optimization) RL dans Unsloth.

Nous introduisons GSPO qui est une variante de GRPO créée par l'équipe Qwen chez Alibaba. Ils ont observé que lorsque GRPO attribue des poids d'importance à chaque jeton, les avantages intrinsèques ne s'étendent pas et ne changent pas avec chaque jeton. Cela a conduit à la création de GSPO, qui attribue désormais l'importance à la vraisemblance de la séquence plutôt qu'aux vraisemblances individuelles des jetons.

Utilisez nos notebooks GSPO gratuits pour : gpt-oss-20b et Qwen2.5-VL

Activez GSPO dans Unsloth en définissant importance_sampling_level = "sequence" dans la configuration GRPO. La différence entre ces deux algorithmes peut être vue ci-dessous, à la fois dans l'article GSPO de Qwen et Alibaba :

Dans l'équation 1, on peut voir que les avantages mettent à l'échelle chacune des lignes dans les logprobs des tokens avant que ce tenseur ne soit sommée. Essentiellement, chaque token reçoit la même mise à l'échelle bien que cette mise à l'échelle ait été appliquée à l'ensemble de la séquence plutôt qu'à chaque token individuel. Un diagramme simple de ceci peut être vu ci‑dessous :

L'équation 2 montre que les ratios de logprob pour chaque séquence sont sommés et exponentiés après le calcul des ratios de logprob, et seuls les ratios de séquence résultants sont multipliés ligne par ligne par les avantages.

Activer GSPO est simple, il vous suffit de définir le importance_sampling_level = "sequence" indicateur dans la configuration GRPO.

training_args = GRPOConfig(
    output_dir = "vlm-grpo-unsloth",
    per_device_train_batch_size = 8,
    gradient_accumulation_steps = 4,
    learning_rate = 5e-6,
    adam_beta1 = 0.9,
    adam_beta2 = 0.99,
    weight_decay = 0.1,
    warmup_ratio = 0.1,
    lr_scheduler_type = "cosine",
    optim = "adamw_8bit",
    # beta = 0.00,
    epsilon = 3e-4,
    epsilon_high = 4e-4,
    num_generations = 8,    
    max_prompt_length = 1024,
    max_completion_length = 1024,
    log_completions = False,
    max_grad_norm = 0.1,
    temperature = 0.9,
    # report_to = "none", # Mettre à "wandb" si vous souhaitez enregistrer sur Weights & Biases
    num_train_epochs = 2, # Pour un test rapide, augmenter pour un entraînement complet
    report_to = "none"
    
    # GSPO est ci‑dessous :
    importance_sampling_level = "sequence",
    
    # Dr GRPO / GAPO etc
    loss_type = "dr_grpo",
)

PrécédentPiraterie des récompenses RL SuivantDPO, ORPO, KTO

Mis à jour il y a 28 jours

Ce contenu vous a-t-il été utile ?