# Apprentissage par renforcement GSPO Nous introduisons GSPO qui est une variante de [GRPO](/docs/fr/commencer/reinforcement-learning-rl-guide.md#from-rlhf-ppo-to-grpo-and-rlvr) créée par l'équipe Qwen chez Alibaba. Ils ont observé que lorsque GRPO attribue des poids d'importance à chaque jeton, les avantages intrinsèques ne s'étendent pas et ne changent pas avec chaque jeton. Cela a conduit à la création de GSPO, qui attribue désormais l'importance à la vraisemblance de la séquence plutôt qu'aux vraisemblances individuelles des jetons. * Utilisez nos notebooks GSPO gratuits pour : [**gpt-oss-20b**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/gpt-oss-\(20B\)-GRPO.ipynb) et [**Qwen2.5-VL**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen2_5_7B_VL_GRPO.ipynb) Activez GSPO dans Unsloth en définissant `importance_sampling_level = "sequence"` dans la configuration GRPO. La différence entre ces deux algorithmes peut être vue ci-dessous, à la fois dans l'article GSPO de Qwen et Alibaba :

Dans l'équation 1, on peut voir que les avantages mettent à l'échelle chacune des lignes dans les logprobs des tokens avant que ce tenseur ne soit sommée. Essentiellement, chaque token reçoit la même mise à l'échelle bien que cette mise à l'échelle ait été appliquée à l'ensemble de la séquence plutôt qu'à chaque token individuel. Un diagramme simple de ceci peut être vu ci‑dessous :

Ratio de logprob GRPO mis à l'échelle ligne par ligne avec les avantages

L'équation 2 montre que les ratios de logprob pour chaque séquence sont sommés et exponentiés après le calcul des ratios de logprob, et seuls les ratios de séquence résultants sont multipliés ligne par ligne par les avantages.

Ratio de séquence GSPO mis à l'échelle ligne par ligne avec les avantages

Activer GSPO est simple, il vous suffit de définir le `importance_sampling_level = "sequence"` indicateur dans la configuration GRPO. ```python training_args = GRPOConfig( output_dir = "vlm-grpo-unsloth", per_device_train_batch_size = 8, gradient_accumulation_steps = 4, learning_rate = 5e-6, adam_beta1 = 0.9, adam_beta2 = 0.99, weight_decay = 0.1, warmup_ratio = 0.1, lr_scheduler_type = "cosine", optim = "adamw_8bit", # beta = 0.00, epsilon = 3e-4, epsilon_high = 4e-4, num_generations = 8, max_prompt_length = 1024, max_completion_length = 1024, log_completions = False, max_grad_norm = 0.1, temperature = 0.9, # report_to = "none", # Mettre à "wandb" si vous souhaitez enregistrer sur Weights & Biases num_train_epochs = 2, # Pour un test rapide, augmenter pour un entraînement complet report_to = "none" # GSPO est ci‑dessous : importance_sampling_level = "sequence", # Dr GRPO / GAPO etc loss_type = "dr_grpo", ) ``` --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/fr/commencer/reinforcement-learning-rl-guide/advanced-rl-documentation/gspo-reinforcement-learning.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.