⁉️FP16 vs. BF16 für RL

Defeating the Training-Inference Mismatch via FP16 https://arxiv.org/pdf/2510.26788 zeigt, dass die Verwendung von float16 besser ist als bfloat16

Float16 vs Bfloat16

Es gab ein Paper mit dem Titel „Überwindung der Trainings-Inferenz-Unstimmigkeit mittels FP16" https://arxiv.org/pdf/2510.26788 in dem gezeigt wird, dass die Verwendung von Float16-Präzision beim Reinforcement Learning deutlich besser sein kann als die Verwendung von Bfloat16.

Tatsächlich wird es bei längeren Generierungen immer schlimmer, wenn man Bfloat16 verwendet:

Wir haben eine Untersuchung durchgeführt, und FESTGESTELLT, dass Float16 stabiler ist als Bfloat16 mit deutlich kleineren Gradientennormen siehe https://x.com/danielhanchen/status/1985557028295827482 und https://x.com/danielhanchen/status/1985562902531850472

🤯A100 Cascade-Attention-Fehler

Laut https://x.com/RichardYRLi/status/1984858850143715759 und https://yingru.notion.site/When-Speed-Kills-Stability-Demystifying-RL-Collapse-from-the-Training-Inference-Mismatch-271211a558b7808d8b12d403fd15edda, hatten ältere vLLM-Versionen (vor 0.11.0) fehlerhafte Attention-Mechanismen für A100 und ähnliche GPUs. Bitte aktualisieren Sie vLLM! Wir deaktivieren außerdem standardmäßig Cascade Attention in vLLM während Unsloth-Reinforcement-Learning, wenn wir eine ältere vLLM-Version feststellen.

Verschiedene Hardware verändert ebenfalls die Ergebnisse; neuere und teurere GPUs zeigen geringere KL-Differenzen zwischen Inferenz- und Trainingsseite:

🔥Verwendung von Float16 in Unsloth RL

Um Float16-Präzision in Unsloth GRPO und RL zu verwenden, müssen Sie lediglich dtype = torch.float16 setzen, und wir kümmern uns um den Rest!

from unsloth import FastLanguageModel
import torch
max_seq_length = 2048 # Kann für längere Reasoning-Traces erhöht werden
lora_rank = 32 # Größerer Rank = intelligenter, aber langsamer

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/Qwen3-4B-Base",
    max_seq_length = max_seq_length,
    load_in_4bit = False, # False für LoRA 16bit
    fast_inference = True, # vLLM Fast-Inferenz aktivieren
    max_lora_rank = lora_rank,
    gpu_memory_utilization = 0.9, # Bei Speichermangel reduzieren
    
    dtype = torch.float16, # Verwenden Sie torch.float16, torch.bfloat16
)

VorherigeRL Reward Hacking NächsteSpeichereffizientes RL

Zuletzt aktualisiert vor 2 Monaten

War das hilfreich?

hashtagFloat16 vs Bfloat16

hashtag🤯A100 Cascade-Attention-Fehler

hashtag🔥Verwendung von Float16 in Unsloth RL

Float16 vs Bfloat16

🤯A100 Cascade-Attention-Fehler

🔥Verwendung von Float16 in Unsloth RL