👁️🗨️Vision 強化学習(VLM RL)
Unsloth を使って GRPO と RL によりビジョン/マルチモーダルモデルをトレーニングしましょう!
os.environ['UNSLOTH_VLLM_STANDBY'] = '1' # vLLM でメモリ効率の良い GRPO を有効にするため
model, tokenizer = FastVisionModel.from_pretrained(
model_name = "Qwen/Qwen2.5-VL-7B-Instruct",
max_seq_length = 16384, # 画像をコンテキストに収めるにはこのくらい大きくする必要があります
load_in_4bit = True, # LoRA 16bit の場合は False
fast_inference = True, # vLLM の高速推論を有効にする
gpu_memory_utilization = 0.8, # メモリ不足の場合は下げてください
)# パラメータ効率の良い微調整のためにモデルに LoRA アダプタを追加
model = FastVisionModel.get_peft_model(
model,
finetune_vision_layers = False,# fast_inference はまだ finetune_vision_layers をサポートしていません :(
finetune_language_layers = True, # 言語層を微調整しない場合は False
finetune_attention_modules = True, # 注意層を微調整しない場合は False
finetune_mlp_modules = True, # MLP 層を微調整しない場合は False
r = lora_rank, # 0 より大きい任意の数を選択!推奨は 8、16、32、64、128
lora_alpha = lora_rank*2, # *2 は学習を高速化します
use_gradient_checkpointing = "unsloth", # メモリ使用量を削減
random_state = 3407,
)🦋Qwen 2.5 VL 視覚強化学習の問題点と特異性


🏅意味不明な出力を減らすための報酬関数
🏁GSPO 強化学習




最終更新
役に立ちましたか?

