Qwen3.5 Feinabstimmungs-Anleitung
Erfahre, wie man Qwen3.5-LLMs mit Unsloth feinabstimmt.
Sie können jetzt feinabstimmen Qwen3.5 Modellfamilie (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) mit Unsloth. Unterstützung umfasst sowohl Vision als auch Text‑Feinabstimmung. Qwen3.5‑35B‑A3B - bf16 LoRA funktioniert auf 74GB VRAM.
Unsloth macht Qwen3.5 Training 1,5× schneller und verwendet 50% weniger VRAM als FA2‑Setups.
Qwen3.5 bf16 LoRA VRAM‑Verbrauch: 0.8B: 3GB • 2B: 5GB • 4B: 10GB • 9B: 22GB • 27B: 56GB
Feinabstimmen 0.8B, 2B und 4B bf16 LoRA über unsere kostenlosen Google Colab‑Notebooks:
Wenn Sie möchten die Fähigkeit zum Schlussfolgern bewahren, können Sie reasoning‑artige Beispiele mit direkten Antworten mischen (mindestens 75% reasoning beibehalten). Andernfalls können Sie es vollständig weglassen.
Vollständige Feinabstimmung (FFT) funktioniert ebenfalls. Beachten Sie, dass dies 4× mehr VRAM verwendet.
Qwen3.5 ist leistungsstark für mehrsprachige Feinabstimmung, da es 201 Sprachen unterstützt.
Verstärkendes Lernen (RL) für Qwen3.5 VLM RL funktioniert ebenfalls über Unsloth‑Inference.
Wir haben A100 Colab‑Notebooks für Qwen3.5‑27B und Qwen3.5‑35B‑A3B.
Wenn Sie eine ältere Version verwenden (oder lokal feinabstimmen), aktualisieren Sie zuerst:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zooBitte verwenden Sie transformers v5 für Qwen3.5. Ältere Versionen funktionieren nicht. Unsloth verwendet standardmäßig jetzt automatisch transformers v5 (außer in Colab‑Umgebungen).
Wenn das Training langsamer als üblich erscheint, liegt das daran, dass Qwen3.5 benutzerdefinierte Mamba‑Triton‑Kerne verwendet. Das Kompilieren dieser Kerne kann länger dauern als üblich, insbesondere auf T4‑GPUs.
Es wird nicht empfohlen, QLoRA (4‑bit) Training auf den Qwen3.5‑Modellen durchzuführen, egal ob MoE oder dicht, aufgrund höher als normaler Quantisierungsunterschiede.
MoE‑Feinabstimmung (35B, 122B)
Für MoE‑Modelle wie Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:
können Sie unser Qwen3.5‑35B‑A3B (A100) Feinabstimmungs‑Notebook
Unterstützt unser jüngstes ~12× schnelleres MoE‑Training‑Update mit >35% weniger VRAM & ~6× längerer Kontextlänge
Am besten bf16‑Setups verwenden (z. B. LoRA oder vollständige Feinabstimmung) (MoE QLoRA 4‑bit wird aufgrund von BitsandBytes‑Einschränkungen nicht empfohlen).
Unsloths MoE‑Kerne sind standardmäßig aktiviert und können verschiedene Backends nutzen; Sie können mit
UNSLOTH_MOE_BACKEND.umschalten.
Router‑Layer‑Feinabstimmung ist standardmäßig aus Stabilitätsgründen deaktiviert.
Qwen3.5‑122B‑A10B - bf16 LoRA funktioniert auf 256GB VRAM. Wenn Sie mehrere GPUs verwenden, fügen Siedevice_map = "balanced" hinzu oder folgen Sie unserem.
multiGPU‑Leitfaden
Schnellstart Unten ist ein minimales SFT‑Rezept (funktioniert für „nur Text“ Feinabstimmung). Siehe auch unser Vision‑Feinabstimmungs
Abschnitt.Qwen3.5 ist „Causal Language Model with Vision Encoder“ (ein vereinheitlichter VLM), stellen Sie also sicher, dass die üblichen Vision‑Abhängigkeiten installiert sind (, torchvisionpillow
) falls erforderlich, und halten Sie Transformers auf dem neuesten Stand. Verwenden Sie die aktuellste Transformers‑Version für Qwen3.5. Wenn SieGRPO durchführen möchten, funktioniert es in Unsloth, wenn Sie schnelle vLLM‑Inference deaktivieren und stattdessen Unsloth‑Inference verwenden. Folgen Sie unseren Vision RL
trainer.train()
Wenn Sie OOM haben:
Verringern Sieper_device_train_batch_size 1 aufund/oder reduzieren Sie.max_seq_length
Behalten Sieuse_gradient_checkpointing="unsloth"
eingeschaltet (es ist dafür ausgelegt, VRAM‑Nutzung zu reduzieren und die Kontextlänge zu verlängern).
max_seq_length = 2048,
Sobald geladen, fügen Sie LoRA‑Adapter hinzu und trainieren ähnlich wie im SFT‑Beispiel oben.
Vision‑Feinabstimmung Unten ist ein minimales SFT‑Rezept (funktioniert für „nur Text“ Feinabstimmung). Siehe auch unser Unsloth unterstützt
(Modellname z. B. in Qwen3.5‑4B ändern)
Deaktivieren von Vision / Nur‑Text Feinabstimmung:
"embed_tokens", Um Qwen3.5 mit mehreren Bildern feinabzustimmen oder zu trainieren, sehen Sie unseren.
Multi‑Image‑Vision‑Leitfaden
Verstärkendes Lernen (RL) Derzeit können Sie Qwen3.5 RL mit Unsloth ausführen, obwohl es von vLLM nicht unterstützt wird, indem Sie setzen fast_inference=False
fast_inference=False,
Notebooks folgen in Kürze...
Speichern / Export des feinabgestimmten Modells Sie können unsere spezifischen Inferenz‑/Bereitstellungsanleitungen für, vLLM, llama.cpp, llama‑server, Ollama LM Studio oder.
SGLang
Ansehen.
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q8_0")
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q4_k_m") model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") Wenn das exportierte Modell in einer anderen Laufzeit schlechter funktioniert, markiert Unsloth die häufigste Ursache:
falsche Chat‑Vorlage / EOS‑Token zur Inferenzzeit
(Sie müssen dieselbe Chat‑Vorlage verwenden, mit der Sie trainiert haben). 0.16.0 Speichern für vLLM 0.170 vLLM‑Version
unterstützt Qwen3.5 nicht. Warten Sie auf
## ODER um auf HuggingFace hochzuladen:
model.save_pretrained("finetuned_lora")
## ODER um auf HuggingFace hochzuladen
Zuletzt aktualisiert
War das hilfreich?

