Qwen3.5: Feinabstimmungs-Leitfaden
Lerne, wie man Qwen3.5 mit Unsloth feinabstimmt.
Sie können jetzt das Qwen3.5 Modell-Familie (27B, 35B‑A3B, 122B‑A10B, 397B‑A17B) mit Unsloth. Die Unterstützung umfasst sowohl Vision- als auch Text-Finetuning. Qwen3.5‑35B‑A3B - bf16 LoRA funktioniert mit 74GB VRAM.
Qwen3.5‑27B - bf16 LoRA funktioniert mit 56GB VRAM und 4‑bit QLoRA auf 28GB
Unterstützt unser kürzliches ~12x schnelleres MoE-Training-Update mit >35% weniger VRAM & ~6x längerem Kontext
Qwen3.5 Fine-Tuning Colab-Notebooks:
Wenn Sie das Schlussfolgerungsvermögen beibehalten möchten, können Sie reasoning‑artige Beispiele mit direkten Antworten mischen (mindestens 75% reasoning beibehalten). Andernfalls können Sie es vollständig weglassen.
Wenn Sie eine ältere Version verwenden (oder lokal fine-tunen), aktualisieren Sie zuerst:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zooMoE Fine-Tuning
Für MoE-Modelle wie Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:
Am besten bf16-Setups verwenden (z. B. LoRA oder vollständiges Fine-Tuning) (MoE QLoRA 4‑bit wird aufgrund von BitsandBytes-Einschränkungen nicht empfohlen).
Unsloths MoE-Kerne sind standardmäßig aktiviert und können verschiedene Backends verwenden; Sie können mit
UNSLOTH_MOE_BACKEND.zwischen ihnen wechseln.
Router-Layer-Finetuning ist aus Stabilitätsgründen standardmäßig deaktiviert.
Qwen3.5‑122B‑A10B - bf16 LoRA funktioniert mit 256GB VRAM. Wenn Sie mehrere GPUs verwenden, fügen Siedevice_map = "balanced" hinzu oder folgen Sie unserem.
multiGPU-Leitfaden
Schnellstart Unten ist ein minimales SFT-Rezept (funktioniert für reines Text-Finetuning). Siehe auch unser Vision-Finetuning
Abschnitt.Qwen3.5 ist ein „kausealeres Sprachmodell mit Vision-Encoder“ (ein einheitliches VLM), stellen Sie daher sicher, dass die üblichen Vision-Abhängigkeiten installiert sind (, torchvisionpillow
trainer.train()
Wenn Sie OOM bekommen:
Reduzieren Sieper_device_train_batch_size 1 aufund/oder verringern Sie.max_seq_length
Behalten Sieuse_gradient_checkpointing="unsloth"
eingeschaltet (es ist darauf ausgelegt, VRAM-Nutzung zu reduzieren und die Kontextlänge zu verlängern).
max_seq_length = 2048,
Sobald geladen, fügen Sie LoRA-Adapter hinzu und trainieren ähnlich wie im obigen SFT-Beispiel.
Vision-Finetuning Unten ist ein minimales SFT-Rezept (funktioniert für reines Text-Finetuning). Siehe auch unser Unsloth unterstützt für die multimodalen Qwen3.5-Modelle. Sie können unseren Qwen3-VL Leitfaden
Qwen3-VL GRPO/GSPO RL Notebook
Deaktivieren von Vision / Nur-Text-Finetuning:
"embed_tokens", Um Qwen3.5 mit mehreren Bildern zu finetunen oder zu trainieren, sehen Sie unseren.
Multi-Image-Vision-Leitfaden
Speichern / Export des feinabgestimmten Modells Sie können unsere spezifischen Inferenz-/Bereitstellungsleitfäden für, vLLM, llama.cpp, llama-server, Ollama LM Studio oder.
SGLang
anzeigen.
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q8_0")
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q4_k_m") model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") Wenn sich das exportierte Modell in einer anderen Laufzeit schlechter verhält, markiert Unsloth die häufigste Ursache:
falsche Chat-Vorlage / EOS-Token zur Inferenzzeit
(Sie müssen dieselbe Chat-Vorlage verwenden, mit der Sie trainiert haben).
## ODER zum Hochladen zu HuggingFace:
model.save_pretrained("finetuned_lora")
## ODER zum Hochladen zu HuggingFace
Zuletzt aktualisiert
War das hilfreich?

