Guide de fine-tuning de Qwen3.5
Apprenez à fine-tuner les LLMs Qwen3.5 avec Unsloth.
Vous pouvez maintenant affiner Qwen3.5 la famille de modèles (0,8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) avec Unsloth. La prise en charge inclut à la fois vision, le texte et RL l’affinage. Qwen3.5‑35B‑A3B - le LoRA bf16 fonctionne sur 74 Go de VRAM.
Unsloth permet d’entraîner Qwen3.5 1,5× plus vite et utilise 50 % de VRAM en moins que les configurations FA2.
Utilisation de la VRAM pour le LoRA bf16 de Qwen3.5 : 0.8B: 3 Go • 2B: 5 Go • 4B: 10 Go • 9B: 22 Go • 27B: 56 Go
Affiner 0.8B, 2B et 4B LoRA bf16 via notre gratuits notebooks Google Colab:
Si vous voulez préserver la capacité de raisonnement vous pouvez mélanger des exemples de type raisonnement avec des réponses directes (conservez au minimum 75 % de raisonnement). Sinon, vous pouvez l’émettre entièrement.
L’affinage complet (FFT) fonctionne aussi. Notez que cela utilisera 4 fois plus de VRAM.
Qwen3.5 est puissant pour l’affinage multilingue, car il prend en charge 201 langues.
Apprentissage par renforcement (RL) pour Qwen3.5 RL VLM fonctionne aussi via l’inférence Unsloth.
Nous avons A100 des notebooks Colab pour Qwen3.5‑27B et Qwen3.5‑35B‑A3B.
Si vous utilisez une version plus ancienne (ou si vous affinez localement), mettez d’abord à jour :
Unsloth Studio :
Unsloth basé sur le code :
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zooVeuillez utiliser transformers v5 pour Qwen3.5. Les versions plus anciennes ne fonctionneront pas. Unsloth utilise désormais automatiquement transformers v5 par défaut (sauf pour les environnements Colab).
Si l’entraînement semble plus lent que d’habitude, c’est parce que Qwen3.5 utilise des noyaux Triton Mamba personnalisés. La compilation de ces noyaux peut prendre plus de temps que la normale, en particulier sur les GPU T4.
Il n’est pas recommandé d’effectuer un entraînement QLoRA (4 bits) sur les modèles Qwen3.5, qu’il s’agisse de MoE ou de dense, en raison de différences de quantification supérieures à la normale.
Affinage MoE (35B, 122B)
Pour les modèles MoE comme Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B:
Vous pouvez utiliser notre Qwen3.5‑35B‑A3B (A100) notebook d’affinage
Prend en charge notre récente mise à jour de l’entraînement MoE ~12× plus rapide avec >35 % de VRAM en moins et un contexte ~6× plus long
Mieux vaut utiliser des configurations bf16 (par ex. LoRA ou affinage complet) (le MoE QLoRA 4 bits n’est pas recommandé en raison des limitations de BitsandBytes).
Les noyaux MoE d’Unsloth sont activés par défaut et peuvent utiliser différents backends ; vous pouvez basculer avec
UNSLOTH_MOE_BACKEND.L’affinage de la couche routeur est désactivé par défaut pour des raisons de stabilité.
Qwen3.5‑122B‑A10B - le LoRA bf16 fonctionne sur 256 Go de VRAM. Si vous utilisez plusieurs GPU, ajoutez
device_map = "balanced"ou suivez notre guide multiGPU.
Démarrage rapide
🦥 Guide d’Unsloth Studio
Qwen3.5 peut être exécuté et affiné dans Unsloth Studio, notre nouvelle interface web open source pour l’IA locale. Avec Unsloth Studio, vous pouvez exécuter des modèles localement sur MacOS, Windows, Linux et :
Entraîner des LLM 2x plus vite avec 70 % de VRAM en moins
Rechercher, télécharger, exécuter des GGUF et des modèles safetensor
Auto-réparation appel d’outils + recherche web
Exécution de code (Python, Bash)
Inférence automatique réglage des paramètres (temp, top-p, etc.)
Inférence CPU + GPU rapide via llama.cpp

Entraîner Qwen3.5
Au premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment.
Recherchez Qwen3.5 dans la barre de recherche et sélectionnez le modèle et le jeu de données souhaités. Ensuite, ajustez vos hyperparamètres et la longueur du contexte selon vos besoins.

Guide Unsloth Core (basé sur le code) :
Ci-dessous se trouve une recette SFT minimale (fonctionne pour l’affinage « texte uniquement »). Voir aussi notre section d’affinage vision .
Qwen3.5 est « Causal Language Model with Vision Encoder » (c’est un VLM unifié), donc assurez-vous d’avoir les dépendances vision habituelles installées (torchvision, pillow) si nécessaire, et gardez Transformers à jour. Utilisez la dernière version de Transformers pour Qwen3.5.
Si vous souhaitez faire GRPO, cela fonctionne dans Unsloth si vous désactivez l’inférence rapide vLLM et utilisez à la place l’inférence Unsloth. Suivez nos exemples de notebooks Vision RL .
Si vous manquez de mémoire (OOM) :
Réduisez
per_device_train_batch_sizeà 1 et/ou réduisezmax_seq_length.Conservez
use_gradient_checkpointing="unsloth"activé (il est conçu pour réduire l’utilisation de VRAM et étendre la longueur du contexte).
Exemple de chargeur pour MoE (LoRA bf16) :
Une fois chargé, vous ajouterez des adaptateurs LoRA et entraînerez le modèle de manière similaire à l’exemple SFT ci-dessus.
Affinage visuel
Unsloth prend en charge d’affinage vision pour les modèles multimodaux Qwen3.5. Utilisez les notebooks Qwen3.5 ci-dessous et remplacez les noms de modèles respectifs par le modèle Qwen3.5 souhaité.
Notebook RL GRPO/GSPO Qwen3-VL (changez le nom du modèle en Qwen3.5-4B, etc.)
Désactivation de la vision / affinage texte seul :
Pour affiner des modèles de vision, nous vous permettons désormais de sélectionner quelles parties du mode affiner. Vous pouvez choisir de n’affiner que les couches de vision, ou les couches de langage, ou les couches d’attention / MLP ! Nous les activons toutes par défaut !
Afin d’affiner ou d’entraîner Qwen3.5 avec plusieurs images, consultez notre guide vision multi-images.
Apprentissage par renforcement (RL)
Vous pouvez désormais entraîner Qwen3.5 avec RL, GSPO, GRPO, etc. avec notre notebook gratuit:
Vous pouvez exécuter Qwen3.5 RL avec Unsloth même s’il n’est pas pris en charge par vLLM, en définissant fast_inference=False lors du chargement du modèle :
Enregistrement / export du modèle affiné
Vous pouvez consulter nos guides spécifiques d’inférence / déploiement pour Unsloth Studio, llama.cpp, vLLM, llama-server, Ollama.
Enregistrer en GGUF
Unsloth prend en charge l’enregistrement direct en GGUF :
Ou poussez les GGUF vers Hugging Face :
Si le modèle exporté se comporte moins bien dans un autre environnement d’exécution, Unsloth signale la cause la plus fréquente : mauvais modèle de conversation / jeton EOS au moment de l’inférence (vous devez utiliser le même modèle de conversation que celui avec lequel vous avez entraîné).
Enregistrer vers vLLM
version de vLLM 0.16.0 ne prend pas en charge Qwen3.5. Attendez jusqu’à 0.170 ou essayez la version Nightly.
Pour enregistrer en 16 bits pour vLLM, utilisez :
Pour enregistrer uniquement les adaptateurs LoRA, utilisez soit :
Ou utilisez notre fonction intégrée :
Pour plus de détails, lisez nos guides d’inférence :
Mis à jour
Ce contenu vous a-t-il été utile ?



