flask-gearQwen3.5 ファインチューニングガイド

Unsloth を使って Qwen3.5 LLM をファインチューニングする方法を学びます。

今すぐ微調整できます Qwen3.5 モデルファミリー(0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B)を Unslotharrow-up-rightがサポートします(含む) ビジョン およびテキストの微調整。 Qwen3.5‑35B‑A3B ‑ bf16 LoRAは動作します(必要VRAM) 74GBのVRAMで。

  • UnslothによりQwen3.5の学習は 1.5×高速化し および使用します VRAMを50%削減 FA2構成と比べて。

  • Qwen3.5 bf16 LoRA の VRAM 使用量: 0.8B: 3GB • 2B: 5GB • 4B: 10GB • 9B: 22GB • 27B: 56GB

  • 微調整 0.8B, 2B および 4B bf16 LoRA を当社の 無料の Google Colab ノートブックで行えます:

  • もしあなたが望むなら 推論能力を維持するために、推論スタイルの例と直接的な回答を混ぜることができます(最低75%は推論例を維持)。そうでなければ完全に省略しても構いません。 (訳注: 最低75%推論を維持。それ以外は完全に省略可)

  • フルファインチューニング(FFT) も動作します。注意:VRAMを4倍多く使用します。

  • Qwen3.5は201言語をサポートしているため、多言語の微調整に強力です。

  • 微調整後、エクスポートできます GGUF (llama.cpp/Ollama/LM Studio/etc.向け)または vLLM

  • 強化学習 (RL)をQwen3.5で VLM RL もUnsloth推論経由で動作します。

  • 私たちは用意しています A100 Colab ノートブックを Qwen3.5‑27B 用のarrow-up-right および Qwen3.5‑35B‑A3Barrow-up-right.

古いバージョンを使っている場合(またはローカルで微調整する場合)は、まずアップデートしてください:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
circle-exclamation

MoE の微調整(35B、122B)

のようなMoEモデルについては、 Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:

  • を使用できます 当社のarrow-up-right Qwen3.5‑35B‑A3B(A100)

  • 微調整ノートブック は最近の約12倍高速化した MoEトレーニング更新をサポートします(VRAMを35%以上削減し、コンテキスト長を約6倍に延長)。

  • bf16構成(例:LoRAまたはフルファインチューニング)を使用するのが最適です (BitsandBytesの制限によりMoE QLoRA 4ビットは推奨されません)。

  • UnslothのMoEカーネルはデフォルトで有効で、異なるバックエンドを使用できます;切り替えは UNSLOTH_MOE_BACKEND.

  • で行えます。安定性のためルーター層の微調整はデフォルトで無効化されています。

  • Qwen3.5‑122B‑A10B - bf16 LoRA は 256GB VRAM で動作します。マルチGPUを使用する場合は、 device_map = "balanced" を追加するか、当社の multiGPU ガイドに従ってください.

クイックスタート

以下は最小限のSFTレシピです(“テキストのみ”の微調整に有効)。当社の ビジョン微調整 セクションも参照してください。

circle-info

Qwen3.5は「視覚エンコーダを持つ因果言語モデル」(統合型VLM)なので、通常のビジョン依存ライブラリ(必要に応じてtorchvision, pillow)をインストールし、Transformersを最新に保ってください。Qwen3.5には最新のTransformersを使用してください。

もしあなたが GRPOを実行したい場合、fast vLLM 推論を無効にし、代わりに Unsloth 推論を使用すれば Unsloth で動作します。当社の Vision RL ノートブック例に従ってください。

circle-info

もし OOM が発生したら:

  • 減らしてください per_device_train_batch_size1 および/または減らす max_seq_length.

  • 次を維持してください use_gradient_checkpointing="unsloth" をオンに(これはVRAM使用を減らし、コンテキスト長を延ばすために設計されています)。

MoE(bf16 LoRA)用のローダー例:

読み込んだら、上記SFTの例と同様にLoRAアダプタを取り付けて訓練します。

ビジョン微調整

Unslothはサポートします ビジョン微調整 マルチモーダルQwen3.5モデル向けに。以下のQwen3.5ノートブックを使用し、該当するモデル名を希望のQwen3.5モデルに変更してください。

ビジョン/テキストのみの微調整を無効化する:

ビジョンモデルを微調整するには、モデルのどの部分を微調整するかを選択できるようにしました。ビジョン層のみ、言語層のみ、またはアテンション/MLP層のみを微調整するよう選択できます!デフォルトではすべてオンになっています!

Qwen3.5を複数画像で微調整または訓練するには、 当社の マルチ画像ビジョンガイドを参照してください.

強化学習(RL)

現在、vLLMがサポートしていなくても、Unsloth を使って Qwen3.5 RL を実行できます。モデル読み込み時に fast_inference=False を設定してください:

ノートブックは近日公開予定...

微調整済みモデルの保存/エクスポート

当社の特定の推論/デプロイガイドを参照できます: llama.cpp, vLLM, llama-server, Ollama, LM Studio または SGLang.

GGUF に保存

Unsloth は直接 GGUF に保存することをサポートします:

または GGUF を Hugging Face にプッシュ:

エクスポートしたモデルが別のランタイムで挙動が悪くなる場合、Unsloth は最も一般的な原因を指摘します: 推論時のチャットテンプレート/EOS トークンが間違っている (訓練時と同じチャットテンプレートを使用する必要があります)。

vLLM に保存

circle-exclamation

vLLM 用に16ビットで保存するには、次を使用します:

LoRAアダプタだけを保存するには、次のいずれかを使用してください:

または組み込み関数を使用:

詳細は当社の推論ガイドをお読みください:

最終更新

役に立ちましたか?