# FP16 vs BF16 pour le RL ### Float16 vs Bfloat16 Il y avait un article intitulé "**Défaire le décalage entraînement-inférence via FP16**" montrant comment l'utilisation de la précision float16 peut être considérablement meilleure que l'utilisation de bfloat16 lors d'un apprentissage par renforcement.

En fait, plus la génération est longue, plus c'est pire lors de l'utilisation de bfloat16 :

Nous avons mené une enquête, et **constatons que le float16 est plus stable** que le bfloat16 avec des normes de gradient bien plus petites voir et {% columns %} {% column width="50%" %}

{% endcolumn %} {% column width="50%" %}

{% endcolumn %} {% endcolumns %} ### :exploding\_head:Bug d'attention en cascade sur A100 Comme indiqué par et , les anciennes versions de vLLM (avant 0.11.0) avaient des mécanismes d'attention défectueux pour les A100 et GPU similaires. Veuillez mettre à jour vLLM ! Nous désactivons également par défaut l'attention en cascade dans vLLM lors de l'apprentissage par renforcement Unsloth si nous détectons une ancienne version de vLLM.

Différents matériels modifient également les résultats, où les GPU plus récents et plus coûteux présentent une moindre différence KL entre l'inférence et l'entraînement :

### :fire:Utiliser le float16 dans Unsloth RL Pour utiliser la précision float16 dans Unsloth GRPO et RL, il vous suffit de définir `dtype = torch.float16` et nous nous occupons du reste ! {% code overflow="wrap" %} ```python from unsloth import FastLanguageModel import torch max_seq_length = 2048 # Peut être augmenté pour des traces de raisonnement plus longues lora_rank = 32 # Rang plus grand = plus intelligent, mais plus lent model, tokenizer = FastLanguageModel.from_pretrained( model_name = "unsloth/Qwen3-4B-Base", max_seq_length = max_seq_length, load_in_4bit = False, # False pour LoRA 16bit fast_inference = True, # Activer l'inférence rapide vLLM max_lora_rank = lora_rank, gpu_memory_utilization = 0.9, # Réduire si mémoire insuffisante dtype = torch.float16, # Utiliser torch.float16, torch.bfloat16 ) ``` {% endcode %} --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/fr/commencer/reinforcement-learning-rl-guide/advanced-rl-documentation/fp16-vs-bf16-for-rl.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.