🧩高级强化学习文档
在将 Unsloth 与 GRPO 一起使用时的高级文档设置。
训练参数
# 如果启用 mask_truncated_completions,则在 completion_mask 中将截断的完成置零 if self.mask_truncated_completions: truncated_completions = ~is_eos.any(dim=1) completion_mask = completion_mask * (~truncated_completions).unsqueeze(1).int()
不受支持模型上的 RL:
生成参数
和梯度累积以调整批次大小
批次与吞吐参数
示例 1
per_device_train_batch_size = 3(每设备训练批次大小)
说明
→ 优化器更新(已达 accum = 2)
优化器更新
说明
→ 优化器更新(已达 accum = 2)
优化器更新
优化器更新(已达 accum = 4)
说明
→ 优化器更新(已达 accum = 2)
优化器更新
说明
→ 优化器更新(已达 accum = 2)
优化器更新
unique_prompts = effective_batch_size / num_generations = 3(独特提示数量)
说明
→ 优化器更新(已达 accum = 2)
优化器更新
说明
→ 优化器更新(已达 accum = 2)
优化器更新
steps_per_generation = gradient_accumulation_steps = 2
说明
→ 优化器更新(已达 accum = 2)
优化器更新
说明
→ 优化器更新(已达 accum = 2)
优化器更新
(此条目保留用于与原文对应)
最后更新于
这有帮助吗?

