GSPO 強化学習
Unsloth で GSPO(Group Sequence Policy Optimization)RL を使ってトレーニングします。
最終更新
役に立ちましたか?
Unsloth で GSPO(Group Sequence Policy Optimization)RL を使ってトレーニングします。
最終更新
役に立ちましたか?
役に立ちましたか?
training_args = GRPOConfig(
output_dir = "vlm-grpo-unsloth",
per_device_train_batch_size = 8,
gradient_accumulation_steps = 4,
learning_rate = 5e-6,
adam_beta1 = 0.9,
adam_beta2 = 0.99,
weight_decay = 0.1,
warmup_ratio = 0.1,
lr_scheduler_type = "cosine",
optim = "adamw_8bit",
# beta = 0.00,
epsilon = 3e-4,
epsilon_high = 4e-4,
num_generations = 8,
max_prompt_length = 1024,
max_completion_length = 1024,
log_completions = False,
max_grad_norm = 0.1,
temperature = 0.9,
# report_to = "none", # ロギングを Weights & Biases に行いたい場合は "wandb" に設定
num_train_epochs = 2, # 簡易テスト用。完全な学習には増やしてください
report_to = "none"
# GSPO は以下:
importance_sampling_level = "sequence",
# Dr GRPO / GAPO 等
loss_type = "dr_grpo",
)