🧩Erweiterte Dokumentation zu Reinforcement Learning
Erweiterte Dokumentationseinstellungen bei der Verwendung von Unsloth mit GRPO.
Trainingsparameter
# Wenn mask_truncated_completions aktiviert ist, abgeschnittene Completionen in completion_mask auf Null setzen if self.mask_truncated_completions: truncated_completions = ~is_eos.any(dim=1) completion_mask = completion_mask * (~truncated_completions).unsqueeze(1).int()
RL bei nicht unterstützten Modellen:
Generierungsparameter
Batch‑ & Durchsatzparameter
Parameter, die Batches steuern
Die folgenden Tabellen veranschaulichen, wie Batches durch die Schritte fließen, wann Optimizer‑Updates stattfinden und wie neue Batches generiert werden.
num_gpus = 1
Batch
Anmerkungen
→ Optimizer‑Update (accum = 2 erreicht)
Batch
Anmerkungen
→ Optimizer‑Update (accum = 2 erreicht)
steps_per_generation = gradient_accumulation_steps = 4
Batch
Anmerkungen
→ Optimizer‑Update (accum = 2 erreicht)
Batch
Anmerkungen
→ Optimizer‑Update (accum = 2 erreicht)
num_generations = 4
Batch
Anmerkungen
→ Optimizer‑Update (accum = 2 erreicht)
Batch
Anmerkungen
→ Optimizer‑Update (accum = 2 erreicht)
per_device_train_batch_size = 6
Batch
Anmerkungen
→ Optimizer‑Update (accum = 2 erreicht)
Batch
Anmerkungen
→ Optimizer‑Update (accum = 2 erreicht)
unique_prompts = effective_batch_size / num_generations # muss > 2 sein
Zuletzt aktualisiert
War das hilfreich?

