flask-gearQwen3.5 : Guide d'affinage

Apprenez à affiner Qwen3.5 avec Unsloth.

Vous pouvez désormais affiner le Qwen3.5 famille de modèles (27B, 35B‑A3B, 122B‑A10B, 397B‑A17B) avec Unslotharrow-up-right. La prise en charge inclut à la fois l’affinage vision et texte. Qwen3.5‑35B‑A3B - LoRA bf16 fonctionne sur 74Go de VRAM.

  • Qwen3.5‑27B - LoRA bf16 fonctionne sur 56Go de VRAM et QLoRA 4 bits sur 28Go

  • Prend en charge notre récente mise à jour d’entraînement MoE ~12x plus rapide mise à jour MoE avec >35% de VRAM en moins et un contexte ~6x plus long

Notebooks Colab d’affinage Qwen3.5 :

  • Si vous voulez préserver la capacité de raisonnement, vous pouvez mélanger des exemples de type raisonnement avec des réponses directes (conserver au minimum 75% de raisonnement). Sinon vous pouvez l’émettre entièrement.

  • Après l’affinage, vous pouvez exporter vers GGUF (pour llama.cpp/Ollama/LM Studio/etc.) ou vLLM

Si vous êtes sur une version plus ancienne (ou affinez localement), mettez d’abord à jour :

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

Affinage MoE

Pour les modèles MoE comme Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:

  • Il est préférable d’utiliser des configurations bf16 (par ex. LoRA ou affinage complet) (MoE QLoRA 4 bits n’est pas recommandé en raison des limitations de BitsandBytes).

  • Les noyaux MoE d’Unsloth sont activés par défaut et peuvent utiliser différents backends ; vous pouvez basculer avec UNSLOTH_MOE_BACKEND.

  • L’affinage de la couche de routage est désactivé par défaut pour la stabilité.

  • Qwen3.5‑122B‑A10B - LoRA bf16 fonctionne sur 256Go de VRAM. Si vous utilisez plusieurs GPUs, ajoutez device_map = "balanced" ou suivez notre Guide multiGPU.

Démarrage rapide

Ci‑dessous se trouve une recette SFT minimale (fonctionne pour l’affinage « texte uniquement »). Voir aussi notre affinage vision section.

circle-info

Qwen3.5 est un « modèle de langage causal avec encodeur vision » (c’est un VLM unifié), assurez‑vous donc d’avoir les dépendances vision habituelles installées (torchvision, pillow) si nécessaire, et maintenez Transformers à jour. Utilisez les derniers Transformers pour Qwen3.5.

circle-info

Si vous manquez de mémoire (OOM) :

  • Réduisez per_device_train_batch_size à 1 et/ou réduisez max_seq_length.

  • Conservez use_gradient_checkpointing="unsloth" activé (il est conçu pour réduire l’utilisation de la VRAM et étendre la longueur du contexte).

Exemple de loader pour MoE (LoRA bf16) :

Une fois chargé, vous attacherez des adaptateurs LoRA et entraînerez de manière similaire à l’exemple SFT ci‑dessus.

Affinage vision

Unsloth prend en charge affinage vision pour les modèles multimodaux Qwen3.5. Vous pouvez lire / utiliser notre guide Qwen3-VL à titre de référence. Utilisez les notebooks Qwen3-VL ci‑dessous et changez les noms de modèles respectifs par le modèle Qwen3.5 souhaité.

Désactivation Vision / Affinage texte uniquement :

Pour affiner des modèles vision, nous vous permettons désormais de sélectionner quelles parties du modèle affiner. Vous pouvez choisir d’affiner uniquement les couches vision, ou les couches langage, ou les couches attention / MLP ! Nous les activons toutes par défaut !

Afin d’affiner ou d’entraîner Qwen3.5 avec plusieurs images, consultez notre guide vision multi‑images.

Enregistrement / export du modèle affiné

Vous pouvez consulter nos guides spécifiques d’inférence / déploiement pour llama.cpp, vLLM, llama-server, Ollama, LM Studio ou SGLang.

Enregistrer en GGUF

Unsloth prend en charge l’enregistrement direct en GGUF :

Ou poussez les GGUF vers Hugging Face :

Si le modèle exporté se comporte moins bien dans un autre runtime, Unsloth signale la cause la plus fréquente : mauvais modèle de chat / token EOS au moment de l’inférence (vous devez utiliser le même modèle de chat avec lequel vous avez entraîné).

Enregistrer pour vLLM

Pour enregistrer en 16 bits pour vLLM, utilisez :

Pour enregistrer uniquement les adaptateurs LoRA, utilisez soit :

Ou utilisez notre fonction intégrée :

Pour plus de détails, lisez nos guides d’inférence :

Mis à jour

Ce contenu vous a-t-il été utile ?