flask-gearQwen3.5 Feinabstimmungs-Anleitung

Erfahre, wie man Qwen3.5-LLMs mit Unsloth feinabstimmt.

Sie können jetzt feinabstimmen Qwen3.5 Modellfamilie (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) mit Unslotharrow-up-right. Unterstützung umfasst sowohl Vision als auch Text‑Feinabstimmung. Qwen3.5‑35B‑A3B - bf16 LoRA funktioniert auf 74GB VRAM.

  • Unsloth macht Qwen3.5 Training 1,5× schneller und verwendet 50% weniger VRAM als FA2‑Setups.

  • Qwen3.5 bf16 LoRA VRAM‑Verbrauch: 0.8B: 3GB • 2B: 5GB • 4B: 10GB • 9B: 22GB • 27B: 56GB

  • Feinabstimmen 0.8B, 2B und 4B bf16 LoRA über unsere kostenlosen Google Colab‑Notebooks:

  • Wenn Sie möchten die Fähigkeit zum Schlussfolgern bewahren, können Sie reasoning‑artige Beispiele mit direkten Antworten mischen (mindestens 75% reasoning beibehalten). Andernfalls können Sie es vollständig weglassen.

  • Vollständige Feinabstimmung (FFT) funktioniert ebenfalls. Beachten Sie, dass dies 4× mehr VRAM verwendet.

  • Qwen3.5 ist leistungsstark für mehrsprachige Feinabstimmung, da es 201 Sprachen unterstützt.

  • Nach der Feinabstimmung können Sie exportieren nach GGUF (für llama.cpp/Ollama/LM Studio/etc.) oder vLLM

  • Verstärkendes Lernen (RL) für Qwen3.5 VLM RL funktioniert ebenfalls über Unsloth‑Inference.

  • Wir haben A100 Colab‑Notebooks für Qwen3.5‑27Barrow-up-right und Qwen3.5‑35B‑A3Barrow-up-right.

Wenn Sie eine ältere Version verwenden (oder lokal feinabstimmen), aktualisieren Sie zuerst:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
circle-exclamation

MoE‑Feinabstimmung (35B, 122B)

Für MoE‑Modelle wie Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:

  • können Sie unser Qwen3.5‑35B‑A3B (A100)arrow-up-right Feinabstimmungs‑Notebook

  • Unterstützt unser jüngstes ~12× schnelleres MoE‑Training‑Update mit >35% weniger VRAM & ~6× längerer Kontextlänge

  • Am besten bf16‑Setups verwenden (z. B. LoRA oder vollständige Feinabstimmung) (MoE QLoRA 4‑bit wird aufgrund von BitsandBytes‑Einschränkungen nicht empfohlen).

  • Unsloths MoE‑Kerne sind standardmäßig aktiviert und können verschiedene Backends nutzen; Sie können mit UNSLOTH_MOE_BACKEND.

  • umschalten.

  • Router‑Layer‑Feinabstimmung ist standardmäßig aus Stabilitätsgründen deaktiviert. Qwen3.5‑122B‑A10B - bf16 LoRA funktioniert auf 256GB VRAM. Wenn Sie mehrere GPUs verwenden, fügen Sie device_map = "balanced" hinzu oder folgen Sie unserem.

multiGPU‑Leitfaden

Schnellstart Unten ist ein minimales SFT‑Rezept (funktioniert für „nur Text“ Feinabstimmung). Siehe auch unser Vision‑Feinabstimmungs

circle-info

Abschnitt.Qwen3.5 ist „Causal Language Model with Vision Encoder“ (ein vereinheitlichter VLM), stellen Sie also sicher, dass die üblichen Vision‑Abhängigkeiten installiert sind (, torchvisionpillow

) falls erforderlich, und halten Sie Transformers auf dem neuesten Stand. Verwenden Sie die aktuellste Transformers‑Version für Qwen3.5. Wenn SieGRPO durchführen möchten, funktioniert es in Unsloth, wenn Sie schnelle vLLM‑Inference deaktivieren und stattdessen Unsloth‑Inference verwenden. Folgen Sie unseren Vision RL

circle-info

trainer.train()

  • Wenn Sie OOM haben: Verringern Sie per_device_train_batch_size 1 auf und/oder reduzieren Sie.

  • max_seq_length Behalten Sieuse_gradient_checkpointing ="unsloth"

eingeschaltet (es ist dafür ausgelegt, VRAM‑Nutzung zu reduzieren und die Kontextlänge zu verlängern).

max_seq_length = 2048,

Sobald geladen, fügen Sie LoRA‑Adapter hinzu und trainieren ähnlich wie im SFT‑Beispiel oben.

Vision‑Feinabstimmung Unten ist ein minimales SFT‑Rezept (funktioniert für „nur Text“ Feinabstimmung). Siehe auch unser Unsloth unterstützt

(Modellname z. B. in Qwen3.5‑4B ändern)

Deaktivieren von Vision / Nur‑Text Feinabstimmung:

"embed_tokens", Um Qwen3.5 mit mehreren Bildern feinabzustimmen oder zu trainieren, sehen Sie unseren.

Multi‑Image‑Vision‑Leitfaden

Verstärkendes Lernen (RL) Derzeit können Sie Qwen3.5 RL mit Unsloth ausführen, obwohl es von vLLM nicht unterstützt wird, indem Sie setzen fast_inference=False

fast_inference=False,

Notebooks folgen in Kürze...

Speichern / Export des feinabgestimmten Modells Sie können unsere spezifischen Inferenz‑/Bereitstellungsanleitungen für, vLLM, llama.cpp, llama‑server, Ollama LM Studio oder.

SGLang

Ansehen.

model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q8_0")

model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q4_k_m") model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") Wenn das exportierte Modell in einer anderen Laufzeit schlechter funktioniert, markiert Unsloth die häufigste Ursache:

falsche Chat‑Vorlage / EOS‑Token zur Inferenzzeit

circle-exclamation

unterstützt Qwen3.5 nicht. Warten Sie auf

## ODER um auf HuggingFace hochzuladen:

model.save_pretrained("finetuned_lora")

## ODER um auf HuggingFace hochzuladen

Zuletzt aktualisiert

War das hilfreich?