⁉️FP16 vs BF16 pour le RL
Vaincre le décalage entraînement-inférence via FP16 https://arxiv.org/pdf/2510.26788 montre comment l'utilisation du float16 est meilleure que le bfloat16
Mis à jour
Ce contenu vous a-t-il été utile ?
Vaincre le décalage entraînement-inférence via FP16 https://arxiv.org/pdf/2510.26788 montre comment l'utilisation du float16 est meilleure que le bfloat16
Mis à jour
Ce contenu vous a-t-il été utile ?
Ce contenu vous a-t-il été utile ?
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048 # Peut être augmenté pour des traces de raisonnement plus longues
lora_rank = 32 # Rang plus grand = plus intelligent, mais plus lent
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "unsloth/Qwen3-4B-Base",
max_seq_length = max_seq_length,
load_in_4bit = False, # False pour LoRA 16bit
fast_inference = True, # Activer l'inférence rapide vLLM
max_lora_rank = lora_rank,
gpu_memory_utilization = 0.9, # Réduire si mémoire insuffisante
dtype = torch.float16, # Utiliser torch.float16, torch.bfloat16
)