🧩高度な強化学習ドキュメント
Unsloth を GRPO と併用する際の高度なドキュメント設定。
トレーニングパラメータ
# mask_truncated_completionsが有効な場合、completion_mask内の切り詰められた完了をゼロにする if self.mask_truncated_completions: truncated_completions = ~is_eos.any(dim=1) completion_mask = completion_mask * (~truncated_completions).unsqueeze(1).int()
サポートされていないモデルでのRL:
fast_inference=False,
と勾配蓄積を編集することを推奨します
バッチ & スループットパラメータ
以下の表は、ステップを通じてバッチがどのように流れるか、オプティマイザの更新がいつ行われるか、および新しいバッチがどのように生成されるかを示します。
num_gpus = 1
バッチ
注意事項
→ オプティマイザ更新(蓄積 = 2 に達した)
バッチ
注意事項
→ オプティマイザ更新(蓄積 = 2 に達した)
steps_per_generation = gradient_accumulation_steps = 4
バッチ
注意事項
→ オプティマイザ更新(蓄積 = 2 に達した)
バッチ
注意事項
→ オプティマイザ更新(蓄積 = 2 に達した)
num_generations = 4
バッチ
注意事項
→ オプティマイザ更新(蓄積 = 2 に達した)
バッチ
注意事項
→ オプティマイザ更新(蓄積 = 2 に達した)
per_device_train_batch_size = 6
バッチ
注意事項
→ オプティマイザ更新(蓄積 = 2 に達した)
バッチ
注意事項
→ オプティマイザ更新(蓄積 = 2 に達した)
unique_prompts = effective_batch_size / num_generations # must be > 2
最終更新
役に立ちましたか?

