🌠Qwen3 - comment l'exécuter et le fine-tuner

Apprenez à exécuter et fine-tuner Qwen3 localement avec Unsloth + nos quantifications dynamiques 2.0

Les nouveaux modèles Qwen3 de Qwen offrent des avancées de pointe en raisonnement, suivi d’instructions, capacités agentiques et prise en charge multilingue.

circle-check

Tous les téléversements utilisent Unsloth Dynamic 2.0 pour des performances SOTA en MMLU 5-shot et en divergence KL, ce qui signifie que vous pouvez exécuter et affiner des LLM Qwen quantifiés avec une perte de précision minimale.

Nous avons également téléversé Qwen3 avec une longueur de contexte native de 128K. Qwen y parvient en utilisant YaRN pour étendre sa fenêtre d’origine de 40K à 128K.

Unslotharrow-up-right prend désormais aussi en charge le fine-tuning et Apprentissage par renforcement (RL) des modèles Qwen3 et Qwen3 MOE — 2x plus rapide, avec 70 % de VRAM en moins et des longueurs de contexte 8x plus longues. Affinez Qwen3 (14B) gratuitement en utilisant notre notebook Colab.arrow-up-right

Tutoriel pour exécuter Qwen3 Fine-tuning de Qwen3

Qwen3 - Unsloth Dynamic 2.0 avec des configurations optimales :

🖥️ Exécuter Qwen3

Pour atteindre des vitesses d’inférence de 6 tokens par seconde ou plus, nous recommandons que la mémoire disponible corresponde au moins à la taille du modèle que vous utilisez, ou la dépasse. Par exemple, un modèle quantifié en 1 bit de 30 Go nécessite au moins 150 Go de mémoire. La quantification Q2_K_XL, qui fait 180 Go, nécessitera au moins 180 Go de mémoire unifiée (VRAM + RAM) ou 180 Go de RAM pour des performances optimales.

REMARQUE : Il est possible d’exécuter le modèle avec moins de mémoire totale que sa taille (c.-à-d. moins de VRAM, moins de RAM, ou un total combiné inférieur). Cependant, cela entraînera des vitesses d’inférence plus lentes. Une mémoire suffisante n’est nécessaire que si vous souhaitez maximiser le débit et obtenir les temps d’inférence les plus rapides.

⚙️ Paramètres officiels recommandés

Selon Qwen, voici les paramètres recommandés pour l’inférence :

Paramètres du mode non-réflexion :
Paramètres du mode réflexion :

Température = 0.7

Température = 0.6

Min_P = 0.0 (facultatif, mais 0.01 fonctionne bien, la valeur par défaut de llama.cpp est 0.1)

Min_P = 0.0

Top_P = 0.8

Top_P = 0.95

TopK = 20

TopK = 20

Modèle de chat/format de prompt :

circle-check
circle-exclamation

Passer du mode réflexion au mode non-réflexion

Les modèles Qwen3 intègrent un « mode réflexion » pour améliorer le raisonnement et la qualité des réponses - similaire à la façon dont QwQ-32B fonctionnait. Les instructions de bascule différeront selon le moteur d’inférence utilisé, assurez-vous donc d’employer les bonnes instructions.

Instructions pour llama.cpp et Ollama :

Vous pouvez ajouter /think et /no_think aux prompts utilisateur ou aux messages système pour changer le mode réflexion du modèle d’un tour à l’autre. Le modèle suivra l’instruction la plus récente dans les conversations à plusieurs tours.

Voici un exemple de conversation à plusieurs tours :

Instructions pour transformers et vLLM :

Mode réflexion :

enable_thinking=True

Par défaut, la réflexion est activée dans Qwen3. Lorsque vous appelez tokenizer.apply_chat_template, vous n’avez rien à définir manuellement.

En mode réflexion, le modèle générera un bloc supplémentaire <think>...</think> avant la réponse finale — cela lui permet de « planifier » et d’affiner ses réponses.

Mode non-réflexion :

enable_thinking=False

Activer le mode non-réflexion fera en sorte que Qwen3 ignore toutes les étapes de réflexion et se comporte comme un LLM normal.

Ce mode fournira directement les réponses finales — aucun <think> bloc, aucune chaîne de pensée.

🦙 Ollama : Tutoriel pour exécuter Qwen3

  1. Installer ollama si ce n’est pas déjà fait ! Vous ne pouvez exécuter que des modèles jusqu’à 32B. Pour exécuter le modèle complet 235B-A22B, voir ici.

  1. Exécutez le modèle ! Notez que vous pouvez appeler ollama servedans un autre terminal si cela échoue ! Nous incluons tous nos correctifs et paramètres suggérés (température, etc.) dans params dans notre téléversement Hugging Face !

  1. Pour désactiver la réflexion, utilisez (ou vous pouvez le définir dans le prompt système) :

circle-exclamation

📖 Llama.cpp : Tutoriel pour exécuter Qwen3

  1. Obtenez la dernière version llama.cpp sur GitHub iciarrow-up-right. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Remplacez -DGGML_CUDA=ON à -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d’habitude - la prise en charge Metal est activée par défaut.

  1. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M, ou d’autres versions quantifiées.

  1. Exécutez le modèle et essayez n’importe quel prompt.

Pour désactiver la réflexion, utilisez (ou vous pouvez le définir dans le prompt système) :

Exécution de Qwen3-235B-A22B

Pour Qwen3-235B-A22B, nous utiliserons spécifiquement Llama.cpp pour une inférence optimisée et une multitude d’options.

  1. Nous suivons des étapes similaires à celles ci-dessus, mais cette fois il faudra aussi effectuer des étapes supplémentaires, car le modèle est si volumineux.

  2. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q2_K_XL, ou d’autres versions quantifiées..

  3. Exécutez le modèle et essayez n’importe quel prompt.

  4. Modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 99 pour l’offloading GPU, selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n’avez qu’une inférence CPU.

circle-check

🦥 Fine-tuning de Qwen3 avec Unsloth

Unsloth rend le fine-tuning de Qwen3 2x plus rapide, utilise 70 % de VRAM en moins et prend en charge des longueurs de contexte 8x plus longues. Qwen3 (14B) tient confortablement dans un GPU Tesla T4 de 16 Go de VRAM sur Google Colab.

Comme Qwen3 prend en charge à la fois le raisonnement et le non-raisonnement, vous pouvez l’affiner avec un jeu de données non-réflexif, mais cela peut affecter ses capacités de raisonnement. Si vous souhaitez conserver ses capacités de raisonnement (facultatif), vous pouvez utiliser un mélange de réponses directes et d’exemples de chaîne de pensée. Utilisez 75 % de raisonnement et 25 % de non-raisonnement dans votre jeu de données pour que le modèle conserve ses capacités de raisonnement.

Notre notebook conversationnel utilise une combinaison de 75 % du jeu de données open-math-reasoning de NVIDIA et de 25 % du jeu de données FineTome de Maxime (non-réflexif). Voici des notebooks Colab Unsloth gratuits pour affiner Qwen3 :

Si vous avez une ancienne version d’Unsloth et/ou que vous effectuez le fine-tuning localement, installez la dernière version d’Unsloth :

Fine-tuning des modèles Qwen3 MOE

La prise en charge du fine-tuning inclut notre nouvelle mise à jour 2026 Faster MOE : 30B-A3B et 235B-A22B. Qwen3-30B-A3B fonctionne avec seulement 17.5 Go de VRAM avec Unsloth. Lors du fine-tuning des MoE, ce n’est probablement pas une bonne idée d’entraîner la couche routeur, donc nous l’avons désactivée par défaut.

Le 30B-A3B tient dans 17.5 Go de VRAM, mais vous pouvez manquer de RAM ou d’espace disque, car le modèle 16 bits complet doit être téléchargé et converti à la volée en 4 bits pour le fine-tuning QLoRA. Cela est dû à des problèmes d’importation directe des modèles MOE BnB 4 bits. Cela n’affecte que les modèles MOE.

Guide du notebook :

Pour utiliser les notebooks, cliquez simplement sur Runtime, puis sur Run all. Vous pouvez modifier les paramètres du notebook selon vos besoins. Nous les avons définis automatiquement par défaut. Changez le nom du modèle comme vous le souhaitez en l’associant au nom du modèle sur Hugging Face, par exemple 'unsloth/Qwen3-8B' ou 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.

Il existe d’autres paramètres que vous pouvez activer ou désactiver :

  • max_seq_length = 2048 – Contrôle la longueur du contexte. Bien que Qwen3 prenne en charge 40960, nous recommandons 2048 pour les tests. Unsloth permet un fine-tuning avec un contexte 8× plus long.

  • load_in_4bit = True – Active la quantification 4 bits, réduisant l’utilisation de mémoire de 4× pour le fine-tuning sur des GPU de 16 Go.

  • Pour full-finetuning - définissez full_finetuning = True et fine-tuning 8 bits - définissez load_in_8bit = True

Si vous souhaitez lire un guide complet de bout en bout sur l’utilisation des notebooks Unsloth pour le fine-tuning ou simplement en apprendre davantage sur le fine-tuning, la création de jeux de données etc., consultez notre guide complet ici:

🧬Fine-tuning Guidechevron-right📈Guide des jeux de donnéeschevron-right

GRPO avec Qwen3

Nous avons créé un nouveau notebook GRPO avancé pour le fine-tuning de Qwen3. Apprenez à utiliser notre nouvelle fonction de récompense basée sur la proximité (réponses plus proches = récompensées) et le jeu de données mathématique Open-R1 de Hugging Face.\nUnsloth dispose désormais aussi de meilleures évaluations et utilise la dernière version de vLLM.

Qwen3 (4B)arrow-up-right notebook - GRPO LoRA avancé

Apprenez à propos de :

  • Activation du raisonnement dans Qwen3 (Base) + guidage pour effectuer une tâche spécifique

  • Pré-fine-tuning pour contourner la tendance de GRPO à apprendre le formatage

  • Précision d’évaluation améliorée grâce à une nouvelle correspondance par expressions régulières

  • Modèles GRPO personnalisés au-delà de simplement « think », par ex. <start_working_out></end_working_out>

  • Évaluation basée sur la proximité : les meilleures réponses gagnent plus de points (par ex., prédire 9 lorsque la réponse est 10) et les valeurs aberrantes sont pénalisées

Mis à jour

Ce contenu vous a-t-il été utile ?