flask-gearGuide d'affinage de Qwen3.5

Apprenez à affiner les LLM Qwen3.5 avec Unsloth.

Vous pouvez maintenant affiner Qwen3.5 famille de modèles (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) avec Unslotharrow-up-right. La prise en charge inclut à la fois vision et affinement de texte. Qwen3.5‑35B‑A3B - LoRA bf16 fonctionne sur 74GB de VRAM.

  • Unsloth rend l'entraînement de Qwen3.5 1,5× plus rapide et utilise 50% moins de VRAM que les configurations FA2.

  • Utilisation de VRAM LoRA bf16 de Qwen3.5 : 0.8B: 3GB • 2B: 5GB • 4B: 10GB • 9B: 22GB • 27B: 56GB

  • Affiner 0.8B, 2B et 4B LoRA bf16 via nos gratuits carnets Google Colab:

  • Si vous voulez préserver la capacité de raisonnement, vous pouvez mélanger des exemples de style raisonnement avec des réponses directes (conserver au minimum 75% de raisonnement). Sinon vous pouvez l'omettre complètement.

  • L'affinement complet (FFT) fonctionne également. Notez qu'il utilisera 4x plus de VRAM.

  • Qwen3.5 est puissant pour l'affinement multilingue car il prend en charge 201 langues.

  • Après l'affinement, vous pouvez exporter vers GGUF (pour llama.cpp/Ollama/LM Studio/etc.) ou vLLM

  • Apprentissage par renforcement (RL) pour Qwen3.5 RL VLM fonctionne aussi via l'inférence Unsloth.

  • Nous avons A100 carnets Colab pour Qwen3.5‑27Barrow-up-right et Qwen3.5‑35B‑A3Barrow-up-right.

Si vous utilisez une version plus ancienne (ou affinez localement), mettez d'abord à jour :

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
circle-exclamation

Affinement MoE (35B, 122B)

Pour les modèles MoE comme Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:

  • Vous pouvez utiliser notre Qwen3.5‑35B‑A3B (A100)arrow-up-right carnet d'affinement

  • Prend en charge notre récente mise à jour d'entraînement MoE ~12x plus rapide mise à jour d'entraînement MoE avec >35% de VRAM en moins et un contexte ~6x plus long

  • Il est préférable d'utiliser des configurations bf16 (par ex. LoRA ou affinement complet) (MoE QLoRA 4‑bits n'est pas recommandé en raison des limitations de BitsandBytes).

  • Les noyaux MoE d'Unsloth sont activés par défaut et peuvent utiliser différents backends ; vous pouvez changer avec UNSLOTH_MOE_BACKEND.

  • Le fine-tuning de la couche routeur est désactivé par défaut pour la stabilité.

  • Qwen3.5‑122B‑A10B - LoRA bf16 fonctionne sur 256GB de VRAM. Si vous utilisez plusieurs GPU, ajoutez device_map = "balanced" ou suivez notre Guide multiGPU.

Démarrage rapide

Ci-dessous se trouve une recette SFT minimale (fonctionne pour l'affinement « texte uniquement »). Voir aussi notre affinement vision section.

circle-info

Qwen3.5 est un « modèle de langage causal avec encodeur de vision » (c'est un VLM unifié), donc assurez-vous d'avoir les dépendances vision habituelles installées (torchvision, pillow) si nécessaire, et gardez Transformers à jour. Utilisez les derniers Transformers pour Qwen3.5.

Si vous souhaitez faire GRPO, cela fonctionne dans Unsloth si vous désactivez l'inférence vLLM rapide et utilisez l'inférence Unsloth à la place. Suivez notre Vision RL exemples de carnets.

circle-info

Si vous avez un OOM :

  • Réduisez per_device_train_batch_size à 1 et/ou réduisez max_seq_length.

  • Gardez use_gradient_checkpointing="unsloth" activé (il est conçu pour réduire l'utilisation de la VRAM et étendre la longueur du contexte).

Exemple de loader pour MoE (LoRA bf16) :

Une fois chargé, vous attacherez des adaptateurs LoRA et entraînerez de manière similaire à l'exemple SFT ci‑dessus.

Affinement vision

Unsloth prend en charge affinement vision pour les modèles multimodaux Qwen3.5. Utilisez les carnets Qwen3.5 ci‑dessous et changez les noms de modèle respectifs vers le modèle Qwen3.5 souhaité.

Désactivation de l'affinement Vision / Texte uniquement :

Pour affiner les modèles de vision, nous permettons maintenant de sélectionner quelles parties du modèle affiner. Vous pouvez choisir d'affiner uniquement les couches de vision, ou les couches de langage, ou les couches d'attention / MLP ! Nous les activons toutes par défaut !

Afin d'affiner ou d'entraîner Qwen3.5 avec multi‑images, consultez notre guide vision multi‑image.

Apprentissage par renforcement (RL)

Actuellement, vous pouvez exécuter RL pour Qwen3.5 avec Unsloth même s'il n'est pas pris en charge par vLLM, en définissant fast_inference=False lors du chargement du modèle :

Des carnets arrivent bientôt...

Enregistrement / export du modèle affiné

Vous pouvez consulter nos guides spécifiques d'inférence / déploiement pour llama.cpp, vLLM, llama-server, Ollama, LM Studio ou SGLang.

Enregistrer en GGUF

Unsloth prend en charge l'enregistrement direct en GGUF :

Ou poussez des GGUF sur Hugging Face :

Si le modèle exporté se comporte moins bien dans un autre runtime, Unsloth signale la cause la plus courante : mauvais modèle de chat / token EOS au moment de l'inférence (vous devez utiliser le même modèle de chat avec lequel vous avez entraîné).

Enregistrer pour vLLM

circle-exclamation

Pour enregistrer en 16 bits pour vLLM, utilisez :

Pour n'enregistrer que les adaptateurs LoRA, utilisez soit :

Ou utilisez notre fonction intégrée :

Pour plus de détails, lisez nos guides d'inférence :

Mis à jour

Ce contenu vous a-t-il été utile ?