🧩Fortgeschrittene Reinforcement Learning Dokumentation
Erweiterte Dokumentationseinstellungen bei der Verwendung von Unsloth mit GRPO.
Trainingsparameter
# Wenn mask_truncated_completions aktiviert ist, setze abgeschnittene Vervollständigungen in completion_mask auf Null if self.mask_truncated_completions: truncated_completions = ~is_eos.any(dim=1) completion_mask = completion_mask * (~truncated_completions).unsqueeze(1).int()
Generierungsparameter
Batch- & Durchsatzparameter
Parameter, die Batches steuern
Beispiel 1
per_device_train_batch_size = 3
→ Optimizer-Update (Akkum = 2 erreicht)
Optimizer-Update
Anmerkungen
→ Optimizer-Update (Akkum = 2 erreicht)
Optimizer-Update
Anmerkungen
Optimizer-Update (Akkum = 4 erreicht)
→ Optimizer-Update (Akkum = 2 erreicht)
Optimizer-Update
Anmerkungen
→ Optimizer-Update (Akkum = 2 erreicht)
Optimizer-Update
Anmerkungen
unique_prompts = effective_batch_size / num_generations = 3
→ Optimizer-Update (Akkum = 2 erreicht)
Optimizer-Update
Anmerkungen
→ Optimizer-Update (Akkum = 2 erreicht)
Optimizer-Update
Anmerkungen
steps_per_generation = gradient_accumulation_steps = 2
→ Optimizer-Update (Akkum = 2 erreicht)
Optimizer-Update
Anmerkungen
→ Optimizer-Update (Akkum = 2 erreicht)
Optimizer-Update
Anmerkungen
Quick Formula Reference
Zuletzt aktualisiert
War das hilfreich?

