flask-gearQwen3.5ファインチューニングガイド

Unslothを使ってQwen3.5 LLMをファインチューニングする方法を学びましょう。

これで微調整が可能になりました Qwen3.5 モデルファミリー(0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B)を Unslotharrow-up-right。サポートには両方が含まれます ビジョン、テキストおよび 強化学習(RL) の微調整。 Qwen3.5‑35B‑A3B ‑ bf16 LoRAはで動作します 74GBのVRAM。

  • UnslothはQwen3.5の学習を 1.5×速く し、 50%少ないVRAM でFA2構成より動作します。

  • Qwen3.5 bf16 LoRA のVRAM使用量: 0.8B:3GB • 2B:5GB • 4B:10GB • 9B:22GB • 27B:56GB

  • ファインチューニング 0.8B, 2B 4B bf16 LoRA は当社の 無料 Google Colabノートブック経由で利用できます:

  • もしあなたが望むなら、 推論能力を保持するために、 推論スタイルの例を直接回答と混在させることができます(推論を最低75%は維持してください)。そうでなければ完全に省略してかまいません。

  • フルファインチューニング(FFT) も同様に機能します。なお、VRAMを4倍多く使用します。

  • Qwen3.5は201言語をサポートしているため、多言語微調整に強力です。

  • 微調整後、次へエクスポートできます GGUF (llama.cpp/Ollama/LM Studioなど用)または vLLM

  • 強化学習 (RL)をQwen3.5用に VLM RL もUnsloth推論経由で動作します。

  • 当社には A100 のColabノートブックがあります Qwen3.5‑27Barrow-up-rightQwen3.5‑35B‑A3Barrow-up-right.

古いバージョンを使っている場合(あるいはローカルで微調整する場合)は、まず更新してください:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
circle-exclamation

MoEの微調整(35B、122B)

のようなMoEモデルについては、 Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:

  • 当社の Qwen3.5‑35B‑A3B(A100)arrow-up-right 微調整ノートブックを使用できます

  • 最近の約12倍高速な MoEトレーニングアップデートをサポート で、VRAMは35%以上削減され、コンテキストは約6倍長くなります

  • bf16構成(例:LoRAやフルファインチューニング)を使用するのが最適です (BitsandBytesの制限によりMoE QLoRA 4ビットは推奨されません)。

  • UnslothのMoEカーネルはデフォルトで有効になっており、異なるバックエンドを使用できます;切り替えるには UNSLOTH_MOE_BACKEND.

  • で変更できます。安定性のためルーター層の微調整はデフォルトで無効になっています。

  • Qwen3.5‑122B‑A10B - bf16 LoRAは256GBのVRAMで動作します。マルチGPUを使用している場合は、 device_map = "balanced" を追加するか、当社の multiGPUガイド.

クイックスタート

以下は最小限のSFTレシピです(“テキストのみ”の微調整で動作します)。また当社の ビジョン微調整 のセクションも参照してください。

circle-info

Qwen3.5は「ビジョンエンコーダを備えた因果言語モデル」(統一されたVLM)なので、通常のビジョン依存関係がインストールされていることを確認してください(torchvision, pillow)が必要な場合があり、Transformersを最新のままにしてください。Qwen3.5には最新のTransformersを使用してください。

もしあなたが GRPOを行いたい場合、それはfast vLLM推論を無効にしてUnsloth推論を代わりに使用すればUnslothで動作します。当社の Vision RL ノートブック例に従ってください。

circle-info

OOMが発生した場合:

  • を下げてください per_device_train_batch_size1 および/または max_seq_length.

  • 次を維持してください use_gradient_checkpointing="unsloth" をオンにしてください(VRAM使用量を削減しコンテキスト長を延ばすよう設計されています)。

MoE用ローダーの例(bf16 LoRA):

読み込んだら、LoRAアダプタをアタッチし、上のSFT例と同様にトレーニングします。

ビジョン微調整

Unslothは次をサポートしています ビジョン微調整 マルチモーダルなQwen3.5モデル用に。以下のQwen3.5ノートブックを使用し、該当するモデル名を目的のQwen3.5モデルに変更してください。

ビジョン/テキストのみ微調整を無効にする:

ビジョンモデルを微調整するには、微調整するモデルのどの部分を選択するかを今は選べるようにしています。ビジョン層のみ、言語層のみ、あるいは注意層/MLP層のみを微調整するよう選択できます!デフォルトではすべてオンにしています!

Qwen3.5をマルチ画像で微調整またはトレーニングするには、 当社の マルチ画像ビジョンガイドを参照してください.

強化学習(RL)

今ではQwen3.5をRL、GSPO、GRPOなどでトレーニングできます、当社の 無料ノートブックでarrow-up-right:

vLLMがサポートしていなくても、UnslothでQwen3.5 RLを実行できます。モデル読み込み時に fast_inference=False を設定してください:

微調整済みモデルの保存/エクスポート

当社のインファレンス/デプロイメントに関する特定のガイドは次を参照できます: llama.cpp, vLLM, llama-server, Ollama, LM Studio または SGLang.

GGUFへ保存

Unslothは直接GGUFへ保存することをサポートしています:

またはGGUFをHugging Faceにプッシュ:

エクスポートしたモデルが別のランタイムで性能が低下する場合、Unslothは最も一般的な原因を指摘します: 推論時のチャットテンプレート/EOSトークンの不一致 (学習時に使用したのと同じチャットテンプレートを使用する必要があります)。

vLLMへ保存

circle-exclamation

vLLM用に16ビットで保存するには、次を使用します:

LoRAアダプタだけを保存するには、次のいずれかを使用してください:

または組み込み関数を使ってください:

詳細は当社のインファレンスガイドをお読みください:

最終更新

役に立ちましたか?