# RL における FP16 と BF16 の比較 ### Float16 と Bfloat16 の比較次のタイトルの論文がありました「**トレーニングと推論の不一致を FP16 で克服する**" 強化学習を行う際に、bfloat16 よりも float16 の精度を使用する方が劇的に優れていることを示しています。

実際、生成が長くなるほど、bfloat16 を使用した場合の悪化が大きくなります：

我々は調査を行い、 **float16 の方がより安定していることを確認しました** bfloat16 よりも勾配ノルムがはるかに小さいことが見られます。詳細はおよび {% columns %} {% column width="50%" %}

{% endcolumn %} {% column width="50%" %}

{% endcolumn %} {% endcolumns %} ### :exploding\_head:A100 のカスケードアテンションのバグ以下によればおよび古い vLLM バージョン（0.11.0 より前）では A100 や類似の GPU に対してアテンション機構が壊れていました。vLLM をアップデートしてください！また、Unsloth の強化学習中に古い vLLM バージョンを検出した場合、vLLM ではデフォルトでカスケードアテンションを無効にしています。

ハードウェアが変わると結果も変わり、より新しく高価な GPU の方が推論側とトレーニング側の KL 差が小さくなります：

### :fire:Unsloth RL での float16 の使用 Unsloth の GRPO および RL で float16 精度を使用するには、次のように設定するだけです `dtype = torch.float16` あとはこちらで処理します！ {% code overflow="wrap" %} ```python from unsloth import FastLanguageModel import torch max_seq_length = 2048 # より長い推論履歴には増やせます lora_rank = 32 # ランクが大きいほど賢くなりますが遅くなります model, tokenizer = FastLanguageModel.from_pretrained( model_name = "unsloth/Qwen3-4B-Base", max_seq_length = max_seq_length, load_in_4bit = False, # LoRA 16bit用はFalse fast_inference = True, # vLLM の高速推論を有効にする max_lora_rank = lora_rank, gpu_memory_utilization = 0.9, # メモリ不足の場合は値を下げてください dtype = torch.float16, # torch.float16、torch.bfloat16 を使用可能 ) ``` {% endcode %}