⁉️FP16 vs BF16 für RL
Das Überwinden der Trainings-Inferenz-Unstimmigkeit via FP16 https://arxiv.org/pdf/2510.26788 zeigt, wie die Verwendung von float16 besser als bfloat16 ist
Zuletzt aktualisiert
War das hilfreich?
Das Überwinden der Trainings-Inferenz-Unstimmigkeit via FP16 https://arxiv.org/pdf/2510.26788 zeigt, wie die Verwendung von float16 besser als bfloat16 ist
Zuletzt aktualisiert
War das hilfreich?
War das hilfreich?
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048 # Kann für längere Reasoning-Traces erhöht werden
lora_rank = 32 # Größerer Rank = intelligenter, aber langsamer
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "unsloth/Qwen3-4B-Base",
max_seq_length = max_seq_length,
load_in_4bit = False, # False für LoRA 16bit
fast_inference = True, # vLLM Fast-Inferenz aktivieren
max_lora_rank = lora_rank,
gpu_memory_utilization = 0.9, # Bei Speichermangel reduzieren
dtype = torch.float16, # Verwenden Sie torch.float16, torch.bfloat16
)