🌠Qwen3 - Comment exécuter et affiner
Apprenez à exécuter et affiner Qwen3 localement avec Unsloth + nos quantifications Dynamic 2.0
Les nouveaux modèles Qwen3 de Qwen offrent des avancées à la pointe dans le raisonnement, le suivi des instructions, les capacités d'agents et la prise en charge multilingue.
NOUVEAU ! Qwen3 a été mis à jour en juillet 2025. Exécutez et peaufinez le modèle le plus récent : Qwen-2507
Tous les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances SOTA en MMLU 5-shot et divergence KL, ce qui signifie que vous pouvez exécuter et affiner des LLM Qwen quantifiés avec une perte d'exactitude minimale.
Nous avons également téléchargé Qwen3 avec une longueur de contexte native de 128K. Qwen y parvient en utilisant YaRN pour étendre sa fenêtre d'origine de 40K à 128K.
Unsloth prend également en charge le fine-tuning et l'apprentissage par renforcement (RL) des modèles Qwen3 et Qwen3 MOE — 2x plus rapide, avec 70% de VRAM en moins et des longueurs de contexte 8x plus longues. Affinez Qwen3 (14B) gratuitement en utilisant notre carnet Colab.
Tutoriel d'exécution de Qwen3 Fine-tuning de Qwen3
Qwen3 - Unsloth Dynamic 2.0 avec des configurations optimales :
🖥️ Exécution de Qwen3
Pour atteindre des vitesses d'inférence de plus de 6 tokens par seconde, nous recommandons que votre mémoire disponible corresponde à la taille du modèle que vous utilisez ou la dépasse. Par exemple, un modèle quantifié 1-bit de 30 Go nécessite au moins 150 Go de mémoire. Le quant Q2_K_XL, qui fait 180 Go, exigera au minimum 180 Go de mémoire unifiée (VRAM + RAM) ou 180 Go de RAM pour des performances optimales.
REMARQUE : Il est possible d'exécuter le modèle avec moins de mémoire totale que sa taille (c.-à-d. moins de VRAM, moins de RAM ou un total combiné inférieur). Cependant, cela se traduira par des vitesses d'inférence plus lentes. Une mémoire suffisante n'est nécessaire que si vous souhaitez maximiser le débit et atteindre les temps d'inférence les plus rapides.
⚙️ Paramètres officiels recommandés
Selon Qwen, voici les paramètres recommandés pour l'inférence :
Température = 0,7
Température = 0,6
Min_P = 0,0 (optionnel, mais 0,01 fonctionne bien, la valeur par défaut de llama.cpp est 0,1)
Min_P = 0,0
Top_P = 0,8
Top_P = 0,95
TopK = 20
TopK = 20
Format du modèle de chat / du prompt :
Pour le mode NON-penser, nous entourons délibérément <think> et </think> par rien :
Pour le mode Penser, N'UTILISEZ PAS le décodage glouton, car cela peut entraîner une dégradation des performances et des répétitions sans fin.
Basculer entre les modes Penser et Non-Penser
Les modèles Qwen3 sont fournis avec un "mode penser" intégré pour renforcer le raisonnement et améliorer la qualité des réponses - similaire à la façon dont QwQ-32B fonctionnait. Les instructions pour basculer diffèrent selon le moteur d'inférence que vous utilisez, assurez-vous donc d'utiliser les instructions correctes.
Instructions pour llama.cpp et Ollama :
Vous pouvez ajouter /think et /no_think aux prompts utilisateur ou aux messages système pour changer le mode penser du modèle d'un turn à l'autre. Le modèle suivra l'instruction la plus récente dans les conversations multi-tours.
Voici un exemple de conversation multi-tours :
Instructions pour transformers et vLLM :
Mode penser :
enable_thinking=True
Par défaut, Qwen3 a le mode penser activé. Lorsque vous appelez tokenizer.apply_chat_template, vous n'avez rien à configurer manuellement.
En mode penser, le modèle générera un <think>...</think> bloc avant la réponse finale — cela lui permet de "planifier" et d'affiner ses réponses.
Mode non-penser :
enable_thinking=False
Activer le mode non-penser fera que Qwen3 sautera toutes les étapes de réflexion et se comportera comme un LLM normal.
Ce mode fournira des réponses finales directement — pas de <think> blocs, pas de chaîne de pensée.
🦙 Ollama : Tutoriel d'exécution de Qwen3
Installez
ollamasi vous ne l'avez pas déjà fait ! Vous ne pouvez exécuter que des modèles jusqu'à 32B. Pour exécuter le modèle complet 235B-A22B, voir ici.
Exécutez le modèle ! Notez que vous pouvez appeler
ollama servedans un autre terminal s'il échoue ! Nous incluons toutes nos corrections et paramètres suggérés (température, etc.) dansparamsdans notre upload Hugging Face !
Pour désactiver la réflexion, utilisez (ou vous pouvez le définir dans le prompt système) :
Si vous rencontrez des boucles, Ollama a peut-être défini votre fenêtre de longueur de contexte à environ 2 048. Si c'est le cas, augmentez-la à 32 000 et voyez si le problème persiste.
📖 Llama.cpp : Tutoriel d'exécution de Qwen3
Obtenez la dernière
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de construction ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisir Q4_K_M, ou d'autres versions quantifiées.
Exécutez le modèle et essayez n'importe quel prompt.
Pour désactiver la réflexion, utilisez (ou vous pouvez le définir dans le prompt système) :
Exécution de Qwen3-235B-A22B
Pour Qwen3-235B-A22B, nous utiliserons spécifiquement Llama.cpp pour une inférence optimisée et une pléthore d'options.
Nous suivons des étapes similaires à celles ci-dessus mais cette fois-ci nous devrons aussi effectuer des étapes supplémentaires car le modèle est si volumineux.
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisir UD-Q2_K_XL, ou d'autres versions quantifiées..Exécutez le modèle et essayez n'importe quel prompt.
Modifiez
--threads 32pour le nombre de threads CPU,--ctx-size 16384pour la longueur de contexte,--n-gpu-layers 99pour le déchargement GPU du nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n'avez qu'une inférence CPU.
Utilisez -ot ".ffn_.*_exps.=CPU" pour décharger toutes les couches MoE sur le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour faire tenir plus de couches si vous avez plus de capacité GPU.
🦥 Fine-tuning de Qwen3 avec Unsloth
Unsloth rend le fine-tuning de Qwen3 2x plus rapide, utilise 70% de VRAM en moins et prend en charge des longueurs de contexte 8x plus longues. Qwen3 (14B) tient confortablement dans un GPU Google Colab Tesla T4 avec 16 Go de VRAM.
Parce que Qwen3 prend en charge à la fois le raisonnement et le non-raisonnement, vous pouvez l'affiner avec un jeu de données non-raisonnant, mais cela peut affecter sa capacité de raisonnement. Si vous souhaitez conserver ses capacités de raisonnement (optionnel), vous pouvez utiliser un mélange de réponses directes et d'exemples de chaîne de pensée. Utilisez 75% raisonnement et 25% non-raisonnement dans votre jeu de données pour faire en sorte que le modèle conserve ses capacités de raisonnement.
Notre carnet Conversationnel utilise une combinaison de 75% du jeu de données open-math-reasoning de NVIDIA et 25% du jeu de données FineTome de Maxime (non-raisonnement). Voici des carnets Colab Unsloth gratuits pour affiner Qwen3 :
Qwen3 (14B) Carnet Raisonnement + Conversationnel (recommandé)
Qwen3 (4B) - GRPO LoRA avancé
Qwen3 (14B) Carnet Alpaca (pour modèles de base)
Si vous avez une ancienne version d'Unsloth et/ou affinez localement, installez la dernière version d'Unsloth :
Fine-tuning des modèles Qwen3 MOE
La prise en charge du fine-tuning inclut notre nouvelle mise à jour 2026 MOE plus rapide : 30B-A3B et 235B-A22B. Qwen3-30B-A3B fonctionne avec seulement 17,5 Go de VRAM avec Unsloth. Pour le fine-tuning des MoE - ce n'est probablement pas une bonne idée d'affiner la couche de routage, donc nous l'avons désactivée par défaut.
Le 30B-A3B tient dans 17,5 Go de VRAM, mais vous pouvez manquer de RAM ou d'espace disque car le modèle complet en 16 bits doit être téléchargé et converti en 4 bits à la volée pour le fine-tuning QLoRA. Cela est dû à des problèmes d'importation directe des modèles MoE BnB 4 bits. Cela n'affecte que les modèles MOE.
Guide du carnet :

Pour utiliser les carnets, cliquez simplement sur Runtime, puis Run all. Vous pouvez modifier les paramètres du carnet comme vous le souhaitez. Nous les avons configurés automatiquement par défaut. Changez le nom du modèle selon ce que vous voulez en le faisant correspondre au nom du modèle sur Hugging Face, par ex. 'unsloth/Qwen3-8B' ou 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.
Il y a d'autres paramètres que vous pouvez activer/désactiver :
max_seq_length = 2048– Contrôle la longueur du contexte. Alors que Qwen3 prend en charge 40960, nous recommandons 2048 pour les tests. Unsloth permet un fine-tuning avec un contexte 8× plus long.load_in_4bit = True– Active la quantification 4 bits, réduisant l'utilisation mémoire par 4× pour le fine-tuning sur des GPU 16 Go.Pour le fine-tuning complet - réglez
full_finetuning = Trueet Fine-tuning 8 bits - réglezload_in_8bit = True
Si vous souhaitez lire un guide complet de bout en bout sur l'utilisation des carnets Unsloth pour le fine-tuning ou simplement en apprendre davantage sur le fine-tuning, la création de jeux de données etc., consultez notre guide complet ici:
🧬Fine-tuning Guide📈Guide des jeux de donnéesGRPO avec Qwen3
Nous avons créé un nouveau carnet GRPO avancé pour le fine-tuning de Qwen3. Apprenez à utiliser notre nouvelle fonction de récompense basée sur la proximité (réponses plus proches = récompensées) et le jeu de données Open-R1 math de Hugging Face. Unsloth inclut désormais aussi de meilleures évaluations et utilise la dernière version de vLLM.
Qwen3 (4B) carnet - GRPO LoRA avancé
Apprenez à propos de :
Activer le raisonnement dans Qwen3 (Base) + le guider pour effectuer une tâche spécifique
Pré-fine-tuning pour contourner la tendance de GRPO à apprendre le formatage
Amélioration de la précision d'évaluation via une nouvelle correspondance regex
Modèles GRPO personnalisés au-delà de simplement 'think' par ex. <start_working_out></end_working_out>
Notation basée sur la proximité : de meilleures réponses gagnent plus de points (par ex., prédire 9 quand la réponse est 10) et les valeurs aberrantes sont pénalisées

Mis à jour
Ce contenu vous a-t-il été utile ?

