Qwen3.5:ファインチューニング ガイド
Unsloth を使って Qwen3.5 をファインチューニングする方法を学びましょう。
これで以下をファインチューニングできます: Qwen3.5 モデルファミリー(27B、35B‑A3B、122B‑A10B、397B‑A17B)を使用して、 Unsloth。サポートにはビジョンとテキストの両方のファインチューニングが含まれます。 Qwen3.5‑35B‑A3B - bf16 LoRA は 74GB の VRAM で動作します。
Qwen3.5‑27B - bf16 LoRA は 56GB VRAM および 4-bit QLoRA は 28GB
最近の約12倍高速な MoE トレーニングの更新 をサポートしており、VRAM を 35%以上削減し、コンテキストを約6倍に延長します。
Qwen3.5 ファインチューニング用 Colab ノートブック:
もしあなたが 推論能力を維持したい場合は、 推論スタイルの例と直接的な回答を混在させることができます(推論を最低75%は維持してください)。そうでなければ完全に省略しても構いません。
古いバージョンを使用している場合(またはローカルでファインチューニングする場合)は、まずアップデートしてください:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zooMoE ファインチューニング
次のような MoE モデルについて: Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:
bf16 セットアップ(例:LoRA またはフルファインチューニング)を使用するのが最良です (BitsandBytes の制約により MoE QLoRA の 4-bit は推奨されません)。
Unsloth の MoE カーネルはデフォルトで有効化されており、異なるバックエンドを使用できます;切り替えは
UNSLOTH_MOE_BACKEND.で行えます。安定性のため、ルーターレイヤーのファインチューニングはデフォルトで無効になっています。
Qwen3.5‑122B‑A10B - bf16 LoRA は 256GB の VRAM で動作します。マルチ GPU を使用している場合は、
device_map = "balanced"を追加するか、私たちの multiGPU ガイド.
クイックスタート
以下は最小限の SFT レシピです(“テキストのみ”のファインチューニングで動作)。また私たちの ビジョンファインチューニング セクションも参照してください。
Qwen3.5 は「ビジョンエンコーダを持つ因果言語モデル」(統合 VLM)です。通常のビジョン依存関係(torchvision, pillow)が必要であればインストールし、Transformers を最新に保ってください。Qwen3.5 には最新の Transformers を使用してください。
OOM(メモリ不足)になった場合:
次を下げてください:
per_device_train_batch_sizeに 1 および/または次を減らしてください:max_seq_length.次を維持してください:
use_gradient_checkpointing="unsloth"をオンにしてください(VRAM 使用量を削減し、コンテキスト長を延ばすよう設計されています)。
MoE 用のローダー例(bf16 LoRA):
読み込んだら、LoRA アダプタをアタッチして上記の SFT 例と同様にトレーニングします。
ビジョンのファインチューニング
Unsloth は以下をサポートします: ビジョンファインチューニング マルチモーダル Qwen3.5 モデル向け。私たちの Qwen3-VL ガイド を参照して使用してください。以下の Qwen3-VL ノートブックを使用し、該当するモデル名を目的の Qwen3.5 モデルに変更してください。
ビジョン無効化 / テキストのみのファインチューニング:
ビジョンモデルをファインチューニングするには、モデルのどの部分をファインチューニングするかを選択できるようになりました。ビジョンレイヤーのみ、言語レイヤーのみ、または attention / MLP レイヤーのみを選択できます!デフォルトではすべてオンに設定されています。
マルチイメージで Qwen3.5 をファインチューニングまたはトレーニングするには、 私たちの マルチイメージビジョンガイド.
をご覧ください。
保存 / ファインチューニング済みモデルのエクスポート 次の特定の推論 / デプロイガイドを参照できます:, vLLM, llama.cpp, llama-server, Ollama LM Studio または.
SGLang
GGUF に保存
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "f16")
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") エクスポートしたモデルが他のランタイムで挙動が悪くなる場合、Unsloth は最も一般的な原因を表示します: 推論時のチャットテンプレート / EOS トークンの誤り
(トレーニング時と同じチャットテンプレートを使用する必要があります)。
vLLM に保存
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")
tokenizer.save_pretrained("finetuned_lora")
model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")
最終更新
役に立ちましたか?

