flask-gearQwen3.5:ファインチューニング ガイド

Unsloth を使って Qwen3.5 をファインチューニングする方法を学びましょう。

これで以下をファインチューニングできます: Qwen3.5 モデルファミリー(27B、35B‑A3B、122B‑A10B、397B‑A17B)を使用して、 Unslotharrow-up-right。サポートにはビジョンとテキストの両方のファインチューニングが含まれます。 Qwen3.5‑35B‑A3B - bf16 LoRA は 74GB の VRAM で動作します。

  • Qwen3.5‑27B - bf16 LoRA は 56GB VRAM および 4-bit QLoRA は 28GB

  • 最近の約12倍高速な MoE トレーニングの更新 をサポートしており、VRAM を 35%以上削減し、コンテキストを約6倍に延長します。

Qwen3.5 ファインチューニング用 Colab ノートブック:

  • もしあなたが 推論能力を維持したい場合は、 推論スタイルの例と直接的な回答を混在させることができます(推論を最低75%は維持してください)。そうでなければ完全に省略しても構いません。

  • ファインチューニング後、次へエクスポートできます: GGUF (llama.cpp/Ollama/LM Studio など用)または vLLM

古いバージョンを使用している場合(またはローカルでファインチューニングする場合)は、まずアップデートしてください:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

MoE ファインチューニング

次のような MoE モデルについて: Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:

  • bf16 セットアップ(例:LoRA またはフルファインチューニング)を使用するのが最良です (BitsandBytes の制約により MoE QLoRA の 4-bit は推奨されません)。

  • Unsloth の MoE カーネルはデフォルトで有効化されており、異なるバックエンドを使用できます;切り替えは UNSLOTH_MOE_BACKEND.

  • で行えます。安定性のため、ルーターレイヤーのファインチューニングはデフォルトで無効になっています。

  • Qwen3.5‑122B‑A10B - bf16 LoRA は 256GB の VRAM で動作します。マルチ GPU を使用している場合は、 device_map = "balanced" を追加するか、私たちの multiGPU ガイド.

クイックスタート

以下は最小限の SFT レシピです(“テキストのみ”のファインチューニングで動作)。また私たちの ビジョンファインチューニング セクションも参照してください。

circle-info

Qwen3.5 は「ビジョンエンコーダを持つ因果言語モデル」(統合 VLM)です。通常のビジョン依存関係(torchvision, pillow)が必要であればインストールし、Transformers を最新に保ってください。Qwen3.5 には最新の Transformers を使用してください。

circle-info

OOM(メモリ不足)になった場合:

  • 次を下げてください: per_device_train_batch_size1 および/または次を減らしてください: max_seq_length.

  • 次を維持してください: use_gradient_checkpointing="unsloth" をオンにしてください(VRAM 使用量を削減し、コンテキスト長を延ばすよう設計されています)。

MoE 用のローダー例(bf16 LoRA):

読み込んだら、LoRA アダプタをアタッチして上記の SFT 例と同様にトレーニングします。

ビジョンのファインチューニング

Unsloth は以下をサポートします: ビジョンファインチューニング マルチモーダル Qwen3.5 モデル向け。私たちの Qwen3-VL ガイド を参照して使用してください。以下の Qwen3-VL ノートブックを使用し、該当するモデル名を目的の Qwen3.5 モデルに変更してください。

ビジョン無効化 / テキストのみのファインチューニング:

ビジョンモデルをファインチューニングするには、モデルのどの部分をファインチューニングするかを選択できるようになりました。ビジョンレイヤーのみ、言語レイヤーのみ、または attention / MLP レイヤーのみを選択できます!デフォルトではすべてオンに設定されています。

マルチイメージで Qwen3.5 をファインチューニングまたはトレーニングするには、 私たちの マルチイメージビジョンガイド.

をご覧ください。

保存 / ファインチューニング済みモデルのエクスポート 次の特定の推論 / デプロイガイドを参照できます:, vLLM, llama.cpp, llama-server, Ollama LM Studio または.

SGLang

GGUF に保存

model.save_pretrained_gguf("directory", tokenizer, quantization_method = "f16")

model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") エクスポートしたモデルが他のランタイムで挙動が悪くなる場合、Unsloth は最も一般的な原因を表示します: 推論時のチャットテンプレート / EOS トークンの誤り

(トレーニング時と同じチャットテンプレートを使用する必要があります)。

vLLM に保存

model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")

tokenizer.save_pretrained("finetuned_lora")

model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")

最終更新

役に立ちましたか?