⁉️FP16 vs BF16 pour le RL

Vaincre le décalage entraînement-inférence via FP16 https://arxiv.org/pdf/2510.26788 montre comment l'utilisation du float16 est meilleure que le bfloat16

Float16 vs Bfloat16

Il y avait un article intitulé "Défaire le décalage entraînement-inférence via FP16" https://arxiv.org/pdf/2510.26788 montrant comment l'utilisation de la précision float16 peut être considérablement meilleure que l'utilisation de bfloat16 lors d'un apprentissage par renforcement.

En fait, plus la génération est longue, plus c'est pire lors de l'utilisation de bfloat16 :

Nous avons mené une enquête, et constatons que le float16 est plus stable que le bfloat16 avec des normes de gradient bien plus petites voir https://x.com/danielhanchen/status/1985557028295827482 et https://x.com/danielhanchen/status/1985562902531850472

🤯Bug d'attention en cascade sur A100

Comme indiqué par https://x.com/RichardYRLi/status/1984858850143715759 et https://yingru.notion.site/When-Speed-Kills-Stability-Demystifying-RL-Collapse-from-the-Training-Inference-Mismatch-271211a558b7808d8b12d403fd15edda, les anciennes versions de vLLM (avant 0.11.0) avaient des mécanismes d'attention défectueux pour les A100 et GPU similaires. Veuillez mettre à jour vLLM ! Nous désactivons également par défaut l'attention en cascade dans vLLM lors de l'apprentissage par renforcement Unsloth si nous détectons une ancienne version de vLLM.

Différents matériels modifient également les résultats, où les GPU plus récents et plus coûteux présentent une moindre différence KL entre l'inférence et l'entraînement :

🔥Utiliser le float16 dans Unsloth RL

Pour utiliser la précision float16 dans Unsloth GRPO et RL, il vous suffit de définir dtype = torch.float16 et nous nous occupons du reste !

from unsloth import FastLanguageModel
import torch
max_seq_length = 2048 # Peut être augmenté pour des traces de raisonnement plus longues
lora_rank = 32 # Rang plus grand = plus intelligent, mais plus lent

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/Qwen3-4B-Base",
    max_seq_length = max_seq_length,
    load_in_4bit = False, # False pour LoRA 16bit
    fast_inference = True, # Activer l'inférence rapide vLLM
    max_lora_rank = lora_rank,
    gpu_memory_utilization = 0.9, # Réduire si mémoire insuffisante
    
    dtype = torch.float16, # Utiliser torch.float16, torch.bfloat16
)

PrécédentAdvanced RL Docs SuivantRL efficace en mémoire

Mis à jour il y a 1 mois

Ce contenu vous a-t-il été utile ?

hashtagFloat16 vs Bfloat16

hashtag🤯Bug d'attention en cascade sur A100

hashtag🔥Utiliser le float16 dans Unsloth RL

Float16 vs Bfloat16

🤯Bug d'attention en cascade sur A100

🔥Utiliser le float16 dans Unsloth RL