flask-gearQwen3.5: Feinabstimmungs-Leitfaden

Lerne, wie man Qwen3.5 mit Unsloth feinabstimmt.

Sie können jetzt das Qwen3.5 Modell-Familie (27B, 35B‑A3B, 122B‑A10B, 397B‑A17B) mit Unslotharrow-up-right. Die Unterstützung umfasst sowohl Vision- als auch Text-Finetuning. Qwen3.5‑35B‑A3B - bf16 LoRA funktioniert mit 74GB VRAM.

  • Qwen3.5‑27B - bf16 LoRA funktioniert mit 56GB VRAM und 4‑bit QLoRA auf 28GB

  • Unterstützt unser kürzliches ~12x schnelleres MoE-Training-Update mit >35% weniger VRAM & ~6x längerem Kontext

Qwen3.5 Fine-Tuning Colab-Notebooks:

  • Wenn Sie das Schlussfolgerungsvermögen beibehalten möchten, können Sie reasoning‑artige Beispiele mit direkten Antworten mischen (mindestens 75% reasoning beibehalten). Andernfalls können Sie es vollständig weglassen.

  • Nach dem Fine-Tuning können Sie exportieren nach GGUF (für llama.cpp/Ollama/LM Studio/etc.) oder vLLM

Wenn Sie eine ältere Version verwenden (oder lokal fine-tunen), aktualisieren Sie zuerst:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

MoE Fine-Tuning

Für MoE-Modelle wie Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:

  • Am besten bf16-Setups verwenden (z. B. LoRA oder vollständiges Fine-Tuning) (MoE QLoRA 4‑bit wird aufgrund von BitsandBytes-Einschränkungen nicht empfohlen).

  • Unsloths MoE-Kerne sind standardmäßig aktiviert und können verschiedene Backends verwenden; Sie können mit UNSLOTH_MOE_BACKEND.

  • zwischen ihnen wechseln.

  • Router-Layer-Finetuning ist aus Stabilitätsgründen standardmäßig deaktiviert. Qwen3.5‑122B‑A10B - bf16 LoRA funktioniert mit 256GB VRAM. Wenn Sie mehrere GPUs verwenden, fügen Sie device_map = "balanced" hinzu oder folgen Sie unserem.

multiGPU-Leitfaden

Schnellstart Unten ist ein minimales SFT-Rezept (funktioniert für reines Text-Finetuning). Siehe auch unser Vision-Finetuning

circle-info

Abschnitt.Qwen3.5 ist ein „kausealeres Sprachmodell mit Vision-Encoder“ (ein einheitliches VLM), stellen Sie daher sicher, dass die üblichen Vision-Abhängigkeiten installiert sind (, torchvisionpillow

circle-info

trainer.train()

  • Wenn Sie OOM bekommen: Reduzieren Sie per_device_train_batch_size 1 auf und/oder verringern Sie.

  • max_seq_length Behalten Sieuse_gradient_checkpointing ="unsloth"

eingeschaltet (es ist darauf ausgelegt, VRAM-Nutzung zu reduzieren und die Kontextlänge zu verlängern).

max_seq_length = 2048,

Sobald geladen, fügen Sie LoRA-Adapter hinzu und trainieren ähnlich wie im obigen SFT-Beispiel.

Vision-Finetuning Unten ist ein minimales SFT-Rezept (funktioniert für reines Text-Finetuning). Siehe auch unser Unsloth unterstützt für die multimodalen Qwen3.5-Modelle. Sie können unseren Qwen3-VL Leitfaden

Qwen3-VL GRPO/GSPO RL Notebook

Deaktivieren von Vision / Nur-Text-Finetuning:

"embed_tokens", Um Qwen3.5 mit mehreren Bildern zu finetunen oder zu trainieren, sehen Sie unseren.

Multi-Image-Vision-Leitfaden

Speichern / Export des feinabgestimmten Modells Sie können unsere spezifischen Inferenz-/Bereitstellungsleitfäden für, vLLM, llama.cpp, llama-server, Ollama LM Studio oder.

SGLang

anzeigen.

model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q8_0")

model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q4_k_m") model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") Wenn sich das exportierte Modell in einer anderen Laufzeit schlechter verhält, markiert Unsloth die häufigste Ursache:

falsche Chat-Vorlage / EOS-Token zur Inferenzzeit

(Sie müssen dieselbe Chat-Vorlage verwenden, mit der Sie trainiert haben).

## ODER zum Hochladen zu HuggingFace:

model.save_pretrained("finetuned_lora")

## ODER zum Hochladen zu HuggingFace

Zuletzt aktualisiert

War das hilfreich?