flask-gearQwen3.5-Fine-Tuning-Leitfaden

Erfahre, wie du Qwen3.5-LLMs mit Unsloth fein-tunest.

Sie können jetzt feinabstimmen Qwen3.5 Modellfamilie (0,8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) mit Unslotharrow-up-right. Die Unterstützung umfasst sowohl Vision, Text und RL Feinabstimmung. Qwen3.5‑35B‑A3B - bf16 LoRA funktioniert auf 74GB VRAM.

  • Unsloth macht Qwen3.5 Training 1,5× schneller und verwendet 50% weniger VRAM als FA2-Setups.

  • Qwen3.5 bf16 LoRA VRAM-Nutzung: 0.8B: 3GB • 2B: 5GB • 4B: 10GB • 9B: 22GB • 27B: 56GB

  • Feinabstimmung 0.8B, 2B und 4B bf16 LoRA über unsere kostenlosen Google Colab-Notebooks:

  • Wenn Sie möchten, die Fähigkeiten zum logischen Schließen bewahren, können Sie reasoning-ähnliche Beispiele mit direkten Antworten mischen (mindestens 75% reasoning beibehalten). Andernfalls können Sie es vollständig weglassen.

  • Volle Feinabstimmung (FFT) funktioniert ebenfalls. Beachten Sie, dass sie 4x mehr VRAM verwenden wird.

  • Qwen3.5 ist leistungsfähig für mehrsprachige Feinabstimmung, da es 201 Sprachen unterstützt.

  • Nach der Feinabstimmung können Sie exportieren nach GGUF (für llama.cpp/Ollama/LM Studio/etc.) oder vLLM

  • Verstärkendes Lernen (RL) für Qwen3.5 VLM RL funktioniert ebenfalls über Unsloth-Inferenz.

  • Wir haben A100 Colab-Notebooks für Qwen3.5‑27Barrow-up-right und Qwen3.5‑35B‑A3Barrow-up-right.

Wenn Sie eine ältere Version verwenden (oder lokal feinabstimmen), aktualisieren Sie zuerst:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
circle-exclamation

MoE-Feinabstimmung (35B, 122B)

Für MoE-Modelle wie Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:

  • Sie können unser Qwen3.5‑35B‑A3B (A100)arrow-up-right Feinabstimmungs-Notebook

  • Unterstützt unser aktuelles ~12x schnelleres MoE-Training-Update mit >35% weniger VRAM & ~6x längerem Kontext

  • Am besten verwendet man bf16-Setups (z. B. LoRA oder volle Feinabstimmung) (MoE QLoRA 4‑bit wird aufgrund von BitsandBytes-Einschränkungen nicht empfohlen).

  • Unsloths MoE-Kernel sind standardmäßig aktiviert und können verschiedene Backends verwenden; Sie können mit UNSLOTH_MOE_BACKEND.

  • wechseln.

  • Router-Layer-Feinabstimmung ist standardmäßig aus Stabilitätsgründen deaktiviert. Qwen3.5‑122B‑A10B - bf16 LoRA funktioniert auf 256GB VRAM. Wenn Sie mehrere GPUs verwenden, fügen Sie hinzu device_map = "balanced" oder folgen Sie unserem.

multiGPU-Leitfaden

Schnellstart Unten ist ein minimales SFT-Rezept (funktioniert für „nur Text“-Feinabstimmung). Siehe auch unser Vision-Feinabstimmung

circle-info

Abschnitt.Qwen3.5 ist „Kausales Sprachmodell mit Vision-Encoder“ (es ist ein vereinheitlichtes VLM), stellen Sie also sicher, dass die üblichen Vision-Abhängigkeiten installiert sind (, torchvisionpillow

) falls erforderlich, und halten Sie Transformers auf dem neuesten Stand. Verwenden Sie die neuesten Transformers für Qwen3.5. GRPOWenn Sie durchführen möchten, funktioniert es in Unsloth, wenn Sie die schnelle vLLM-Inferenz deaktivieren und stattdessen Unsloth-Inferenz verwenden. Folgen Sie unserem Vision RL

circle-info

trainer.train()

  • Wenn Sie OOM bekommen: Reduzieren Sie zu 1 per_device_train_batch_size und/oder reduzieren Sie.

  • max_seq_length Behalten Sie beiuse_gradient_checkpointing ="unsloth"

angeschaltet (es ist darauf ausgelegt, VRAM-Nutzung zu reduzieren und die Kontextlänge zu verlängern).

max_seq_length = 2048,

Sobald geladen, fügen Sie LoRA-Adapter hinzu und trainieren ähnlich wie im SFT-Beispiel oben.

Vision-Feinabstimmung Unten ist ein minimales SFT-Rezept (funktioniert für „nur Text“-Feinabstimmung). Siehe auch unser Unsloth unterstützt

(Modellnamen auf Qwen3.5-4B etc. ändern)

Deaktivieren von Vision / Nur-Text-Feinabstimmung:

"embed_tokens", Um Qwen3.5 mit mehreren Bildern feinabzustimmen oder zu trainieren, sehen Sie unseren.

Multi-Image-Vision-Leitfaden

Verstärkendes Lernen (RL) Sie können jetzt Qwen3.5 mit RL, GSPO, GRPO etc. trainieren mitarrow-up-right:

unserem kostenlosen Notebook Sie können Qwen3.5 RL mit Unsloth ausführen, obwohl es von vLLM nicht unterstützt wird, indem Sie setzen fast_inference=False

fast_inference=False,

Speichern / Export des feinabgestimmten Modells llama.cpp, vLLM, llama-server, Ollama, LM Studio oder Sie können unsere spezifischen Inferenz-/Bereitstellungsanleitungen für.

SGLang

Speichern als GGUF

model.save_pretrained_gguf("directory", tokenizer, quantization_method = "f16")

model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") Wenn sich das exportierte Modell in einer anderen Laufzeit schlechter verhält, markiert Unsloth die häufigste Ursache: falsche Chat-Vorlage / EOS-Token zur Inferenzzeit

(Sie müssen dieselbe Chat-Vorlage verwenden, mit der Sie trainiert haben).

circle-exclamation

oder versuchen Sie die Nightly-Version.

model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")

tokenizer.save_pretrained("finetuned_lora")

model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "") ,

Zuletzt aktualisiert

War das hilfreich?