Qwen3.5ファインチューニングガイド
Unslothを使ってQwen3.5 LLMをファインチューニングする方法を学びましょう。
これで微調整が可能になりました Qwen3.5 モデルファミリー(0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B)を Unsloth。サポートには両方が含まれます ビジョン、テキストおよび 強化学習(RL) の微調整。 Qwen3.5‑35B‑A3B ‑ bf16 LoRAはで動作します 74GBのVRAM。
UnslothはQwen3.5の学習を 1.5×速く し、 50%少ないVRAM でFA2構成より動作します。
Qwen3.5 bf16 LoRA のVRAM使用量: 0.8B:3GB • 2B:5GB • 4B:10GB • 9B:22GB • 27B:56GB
ファインチューニング 0.8B, 2B と 4B bf16 LoRA は当社の 無料 Google Colabノートブック経由で利用できます:
もしあなたが望むなら、 推論能力を保持するために、 推論スタイルの例を直接回答と混在させることができます(推論を最低75%は維持してください)。そうでなければ完全に省略してかまいません。
フルファインチューニング(FFT) も同様に機能します。なお、VRAMを4倍多く使用します。
Qwen3.5は201言語をサポートしているため、多言語微調整に強力です。
当社には A100 のColabノートブックがあります Qwen3.5‑27B と Qwen3.5‑35B‑A3B.
古いバージョンを使っている場合(あるいはローカルで微調整する場合)は、まず更新してください:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo次を使用してください transformers v5 をQwen3.5向けに。古いバージョンは動作しません。Unslothは現在デフォルトで自動的にtransformers v5を使用します(Colab環境を除く)。
トレーニングが 通常より遅く感じる場合、それはQwen3.5がカスタムMamba Tritonカーネルを使用しているためです。これらのカーネルをコンパイルするのは通常より時間がかかることがあり、特にT4 GPUでは顕著です。
QLoRA(4ビット)でのQwen3.5モデルの学習は、MoEであれデンスであれ、量子化差異が通常より大きいため推奨されません。
MoEの微調整(35B、122B)
のようなMoEモデルについては、 Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:
当社の Qwen3.5‑35B‑A3B(A100) 微調整ノートブックを使用できます
最近の約12倍高速な MoEトレーニングアップデートをサポート で、VRAMは35%以上削減され、コンテキストは約6倍長くなります
bf16構成(例:LoRAやフルファインチューニング)を使用するのが最適です (BitsandBytesの制限によりMoE QLoRA 4ビットは推奨されません)。
UnslothのMoEカーネルはデフォルトで有効になっており、異なるバックエンドを使用できます;切り替えるには
UNSLOTH_MOE_BACKEND.で変更できます。安定性のためルーター層の微調整はデフォルトで無効になっています。
Qwen3.5‑122B‑A10B - bf16 LoRAは256GBのVRAMで動作します。マルチGPUを使用している場合は、
device_map = "balanced"を追加するか、当社の multiGPUガイド.
クイックスタート
以下は最小限のSFTレシピです(“テキストのみ”の微調整で動作します)。また当社の ビジョン微調整 のセクションも参照してください。
OOMが発生した場合:
を下げてください
per_device_train_batch_sizeを 1 および/またはmax_seq_length.次を維持してください
use_gradient_checkpointing="unsloth"をオンにしてください(VRAM使用量を削減しコンテキスト長を延ばすよう設計されています)。
MoE用ローダーの例(bf16 LoRA):
読み込んだら、LoRAアダプタをアタッチし、上のSFT例と同様にトレーニングします。
ビジョン微調整
Unslothは次をサポートしています ビジョン微調整 マルチモーダルなQwen3.5モデル用に。以下のQwen3.5ノートブックを使用し、該当するモデル名を目的のQwen3.5モデルに変更してください。
Qwen3-VL GRPO/GSPO RLノートブック (モデル名をQwen3.5-4Bなどに変更)
ビジョン/テキストのみ微調整を無効にする:
ビジョンモデルを微調整するには、微調整するモデルのどの部分を選択するかを今は選べるようにしています。ビジョン層のみ、言語層のみ、あるいは注意層/MLP層のみを微調整するよう選択できます!デフォルトではすべてオンにしています!
Qwen3.5をマルチ画像で微調整またはトレーニングするには、 当社の マルチ画像ビジョンガイドを参照してください.
強化学習(RL)
今ではQwen3.5をRL、GSPO、GRPOなどでトレーニングできます、当社の 無料ノートブックで:
vLLMがサポートしていなくても、UnslothでQwen3.5 RLを実行できます。モデル読み込み時に fast_inference=False を設定してください:
微調整済みモデルの保存/エクスポート
当社のインファレンス/デプロイメントに関する特定のガイドは次を参照できます: llama.cpp, vLLM, llama-server, Ollama, LM Studio または SGLang.
GGUFへ保存
Unslothは直接GGUFへ保存することをサポートしています:
またはGGUFをHugging Faceにプッシュ:
エクスポートしたモデルが別のランタイムで性能が低下する場合、Unslothは最も一般的な原因を指摘します: 推論時のチャットテンプレート/EOSトークンの不一致 (学習時に使用したのと同じチャットテンプレートを使用する必要があります)。
vLLMへ保存
vLLMのバージョンは 0.16.0 Qwen3.5をサポートしていません。まで待つか 0.170 あるいはNightlyリリースを試してください。
vLLM用に16ビットで保存するには、次を使用します:
LoRAアダプタだけを保存するには、次のいずれかを使用してください:
または組み込み関数を使ってください:
詳細は当社のインファレンスガイドをお読みください:
最終更新
役に立ちましたか?

