Qwen3.5-Fine-Tuning-Leitfaden
Erfahre, wie du Qwen3.5-LLMs mit Unsloth fein-tunest.
Sie können jetzt feinabstimmen Qwen3.5 Modellfamilie (0,8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) mit Unsloth. Die Unterstützung umfasst sowohl Vision, Text und RL Feinabstimmung. Qwen3.5‑35B‑A3B - bf16 LoRA funktioniert auf 74GB VRAM.
Unsloth macht Qwen3.5 Training 1,5× schneller und verwendet 50% weniger VRAM als FA2-Setups.
Qwen3.5 bf16 LoRA VRAM-Nutzung: 0.8B: 3GB • 2B: 5GB • 4B: 10GB • 9B: 22GB • 27B: 56GB
Feinabstimmung 0.8B, 2B und 4B bf16 LoRA über unsere kostenlosen Google Colab-Notebooks:
Wenn Sie möchten, die Fähigkeiten zum logischen Schließen bewahren, können Sie reasoning-ähnliche Beispiele mit direkten Antworten mischen (mindestens 75% reasoning beibehalten). Andernfalls können Sie es vollständig weglassen.
Volle Feinabstimmung (FFT) funktioniert ebenfalls. Beachten Sie, dass sie 4x mehr VRAM verwenden wird.
Qwen3.5 ist leistungsfähig für mehrsprachige Feinabstimmung, da es 201 Sprachen unterstützt.
Verstärkendes Lernen (RL) für Qwen3.5 VLM RL funktioniert ebenfalls über Unsloth-Inferenz.
Wir haben A100 Colab-Notebooks für Qwen3.5‑27B und Qwen3.5‑35B‑A3B.
Wenn Sie eine ältere Version verwenden (oder lokal feinabstimmen), aktualisieren Sie zuerst:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zooBitte verwenden Sie transformers v5 für Qwen3.5. Ältere Versionen funktionieren nicht. Unsloth verwendet standardmäßig jetzt automatisch transformers v5 (außer in Colab-Umgebungen).
Wenn das Training langsamer als üblich erscheint, liegt das daran, dass Qwen3.5 eigene Mamba Triton Kernel verwendet. Das Kompilieren dieser Kernel kann länger dauern als gewöhnlich, insbesondere auf T4-GPUs.
Es wird nicht empfohlen, QLoRA (4-Bit) Training auf den Qwen3.5-Modellen durchzuführen, weder bei MoE noch bei dichten Modellen, aufgrund höher als normaler Quantisierungsunterschiede.
MoE-Feinabstimmung (35B, 122B)
Für MoE-Modelle wie Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:
Sie können unser Qwen3.5‑35B‑A3B (A100) Feinabstimmungs-Notebook
Unterstützt unser aktuelles ~12x schnelleres MoE-Training-Update mit >35% weniger VRAM & ~6x längerem Kontext
Am besten verwendet man bf16-Setups (z. B. LoRA oder volle Feinabstimmung) (MoE QLoRA 4‑bit wird aufgrund von BitsandBytes-Einschränkungen nicht empfohlen).
Unsloths MoE-Kernel sind standardmäßig aktiviert und können verschiedene Backends verwenden; Sie können mit
UNSLOTH_MOE_BACKEND.wechseln.
Router-Layer-Feinabstimmung ist standardmäßig aus Stabilitätsgründen deaktiviert.
Qwen3.5‑122B‑A10B - bf16 LoRA funktioniert auf 256GB VRAM. Wenn Sie mehrere GPUs verwenden, fügen Sie hinzudevice_map = "balanced" oder folgen Sie unserem.
multiGPU-Leitfaden
Schnellstart Unten ist ein minimales SFT-Rezept (funktioniert für „nur Text“-Feinabstimmung). Siehe auch unser Vision-Feinabstimmung
Abschnitt.Qwen3.5 ist „Kausales Sprachmodell mit Vision-Encoder“ (es ist ein vereinheitlichtes VLM), stellen Sie also sicher, dass die üblichen Vision-Abhängigkeiten installiert sind (, torchvisionpillow
) falls erforderlich, und halten Sie Transformers auf dem neuesten Stand. Verwenden Sie die neuesten Transformers für Qwen3.5. GRPOWenn Sie durchführen möchten, funktioniert es in Unsloth, wenn Sie die schnelle vLLM-Inferenz deaktivieren und stattdessen Unsloth-Inferenz verwenden. Folgen Sie unserem Vision RL
trainer.train()
Wenn Sie OOM bekommen:
Reduzieren Siezu 1 per_device_train_batch_sizeund/oder reduzieren Sie.max_seq_length
Behalten Sie beiuse_gradient_checkpointing="unsloth"
angeschaltet (es ist darauf ausgelegt, VRAM-Nutzung zu reduzieren und die Kontextlänge zu verlängern).
max_seq_length = 2048,
Sobald geladen, fügen Sie LoRA-Adapter hinzu und trainieren ähnlich wie im SFT-Beispiel oben.
Vision-Feinabstimmung Unten ist ein minimales SFT-Rezept (funktioniert für „nur Text“-Feinabstimmung). Siehe auch unser Unsloth unterstützt
(Modellnamen auf Qwen3.5-4B etc. ändern)
Deaktivieren von Vision / Nur-Text-Feinabstimmung:
"embed_tokens", Um Qwen3.5 mit mehreren Bildern feinabzustimmen oder zu trainieren, sehen Sie unseren.
Multi-Image-Vision-Leitfaden
Verstärkendes Lernen (RL) Sie können jetzt Qwen3.5 mit RL, GSPO, GRPO etc. trainieren mit:
unserem kostenlosen Notebook Sie können Qwen3.5 RL mit Unsloth ausführen, obwohl es von vLLM nicht unterstützt wird, indem Sie setzen fast_inference=False
fast_inference=False,
Speichern / Export des feinabgestimmten Modells llama.cpp, vLLM, llama-server, Ollama, LM Studio oder Sie können unsere spezifischen Inferenz-/Bereitstellungsanleitungen für.
SGLang
Speichern als GGUF
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "f16")
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") Wenn sich das exportierte Modell in einer anderen Laufzeit schlechter verhält, markiert Unsloth die häufigste Ursache: falsche Chat-Vorlage / EOS-Token zur Inferenzzeit
(Sie müssen dieselbe Chat-Vorlage verwenden, mit der Sie trainiert haben).
Speichern für vLLM 0.16.0 vLLM-Version 0.170 unterstützt Qwen3.5 nicht. Warten Sie bis
oder versuchen Sie die Nightly-Version.
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")
tokenizer.save_pretrained("finetuned_lora")
model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "") ,
Zuletzt aktualisiert
War das hilfreich?

