Qwen3.5 ファインチューニングガイド
Unsloth を使って Qwen3.5 LLM をファインチューニングする方法を学びます。
今すぐ微調整できます Qwen3.5 モデルファミリー(0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B)を Unslothがサポートします(含む) ビジョン およびテキストの微調整。 Qwen3.5‑35B‑A3B ‑ bf16 LoRAは動作します(必要VRAM) 74GBのVRAMで。
UnslothによりQwen3.5の学習は 1.5×高速化し および使用します VRAMを50%削減 FA2構成と比べて。
Qwen3.5 bf16 LoRA の VRAM 使用量: 0.8B: 3GB • 2B: 5GB • 4B: 10GB • 9B: 22GB • 27B: 56GB
微調整 0.8B, 2B および 4B bf16 LoRA を当社の 無料の Google Colab ノートブックで行えます:
もしあなたが望むなら 推論能力を維持するために、推論スタイルの例と直接的な回答を混ぜることができます(最低75%は推論例を維持)。そうでなければ完全に省略しても構いません。 (訳注: 最低75%推論を維持。それ以外は完全に省略可)
フルファインチューニング(FFT) も動作します。注意:VRAMを4倍多く使用します。
Qwen3.5は201言語をサポートしているため、多言語の微調整に強力です。
私たちは用意しています A100 Colab ノートブックを Qwen3.5‑27B 用の および Qwen3.5‑35B‑A3B.
古いバージョンを使っている場合(またはローカルで微調整する場合)は、まずアップデートしてください:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo使用してください transformers v5 Qwen3.5には。古いバージョンは動作しません。Unslothは現在デフォルトで自動的にtransformers v5を使用します(Colab環境を除く)。
学習が 通常より遅い場合は、Qwen3.5がカスタムのMamba Tritonカーネルを使用しているためです。これらのカーネルのコンパイルは、特にT4 GPUでは通常より時間がかかることがあります。
QLoRA(4ビット)トレーニングは、MoEでもデンスでも、量子化差が通常より大きいためQwen3.5モデルでは推奨されません。
MoE の微調整(35B、122B)
のようなMoEモデルについては、 Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:
を使用できます 当社の Qwen3.5‑35B‑A3B(A100)
微調整ノートブック は最近の約12倍高速化した MoEトレーニング更新をサポートします(VRAMを35%以上削減し、コンテキスト長を約6倍に延長)。
bf16構成(例:LoRAまたはフルファインチューニング)を使用するのが最適です (BitsandBytesの制限によりMoE QLoRA 4ビットは推奨されません)。
UnslothのMoEカーネルはデフォルトで有効で、異なるバックエンドを使用できます;切り替えは
UNSLOTH_MOE_BACKEND.で行えます。安定性のためルーター層の微調整はデフォルトで無効化されています。
Qwen3.5‑122B‑A10B - bf16 LoRA は 256GB VRAM で動作します。マルチGPUを使用する場合は、
device_map = "balanced"を追加するか、当社の multiGPU ガイドに従ってください.
クイックスタート
以下は最小限のSFTレシピです(“テキストのみ”の微調整に有効)。当社の ビジョン微調整 セクションも参照してください。
もし OOM が発生したら:
減らしてください
per_device_train_batch_sizeを 1 および/または減らすmax_seq_length.次を維持してください
use_gradient_checkpointing="unsloth"をオンに(これはVRAM使用を減らし、コンテキスト長を延ばすために設計されています)。
MoE(bf16 LoRA)用のローダー例:
読み込んだら、上記SFTの例と同様にLoRAアダプタを取り付けて訓練します。
ビジョン微調整
Unslothはサポートします ビジョン微調整 マルチモーダルQwen3.5モデル向けに。以下のQwen3.5ノートブックを使用し、該当するモデル名を希望のQwen3.5モデルに変更してください。
Qwen3-VL GRPO/GSPO RL ノートブック (モデル名を Qwen3.5-4B などに変更)
ビジョン/テキストのみの微調整を無効化する:
ビジョンモデルを微調整するには、モデルのどの部分を微調整するかを選択できるようにしました。ビジョン層のみ、言語層のみ、またはアテンション/MLP層のみを微調整するよう選択できます!デフォルトではすべてオンになっています!
Qwen3.5を複数画像で微調整または訓練するには、 当社の マルチ画像ビジョンガイドを参照してください.
強化学習(RL)
現在、vLLMがサポートしていなくても、Unsloth を使って Qwen3.5 RL を実行できます。モデル読み込み時に fast_inference=False を設定してください:
ノートブックは近日公開予定...
微調整済みモデルの保存/エクスポート
当社の特定の推論/デプロイガイドを参照できます: llama.cpp, vLLM, llama-server, Ollama, LM Studio または SGLang.
GGUF に保存
Unsloth は直接 GGUF に保存することをサポートします:
または GGUF を Hugging Face にプッシュ:
エクスポートしたモデルが別のランタイムで挙動が悪くなる場合、Unsloth は最も一般的な原因を指摘します: 推論時のチャットテンプレート/EOS トークンが間違っている (訓練時と同じチャットテンプレートを使用する必要があります)。
vLLM に保存
vLLM のバージョン 0.16.0 は Qwen3.5 をサポートしていません。対応を待つか、 0.170 ナイトリービルドを試してください。
vLLM 用に16ビットで保存するには、次を使用します:
LoRAアダプタだけを保存するには、次のいずれかを使用してください:
または組み込み関数を使用:
詳細は当社の推論ガイドをお読みください:
最終更新
役に立ちましたか?

