🌠Qwen3 - Comment exécuter et affiner

Apprenez à exécuter et affiner Qwen3 localement avec Unsloth + nos quantifications Dynamic 2.0

Les nouveaux modèles Qwen3 de Qwen offrent des avancées de pointe en raisonnement, respect des instructions, capacités d'agents et prise en charge multilingue.

NOUVEAU ! Qwen3 a reçu une mise à jour en juillet 2025. Exécutez et affinez le modèle le plus récent : Qwen-2507

Tous les téléchargements utilisent Unsloth méthodologie Dynamic 2.0 pour des performances SOTA en MMLU 5-shot et en divergence KL, ce qui signifie que vous pouvez exécuter et affiner des LLM Qwen quantifiés avec une perte d'exactitude minimale.

Nous avons également téléchargé Qwen3 avec une longueur de contexte native de 128K. Qwen y parvient en utilisant YaRN pour étendre sa fenêtre d'origine de 40K à 128K.

Unsloth prend également désormais en charge le fine-tuning et Apprentissage par renforcement (RL) des modèles Qwen3 et Qwen3 MOE — 2× plus rapide, avec 70 % de VRAM en moins et des longueurs de contexte 8× plus longues. Affinez Qwen3 (14B) gratuitement en utilisant notre carnet Colab.

Tutoriel d'exécution de Qwen3 Fine-tuner Qwen3

Qwen3 - Unsloth Dynamic 2.0 avec des configurations optimales :

Dynamic 2.0 GGUF (pour exécuter)

GGUF Contexte 128K

Safetensor dynamique 4 bits (pour affiner/déployer)

🖥️ Exécution de Qwen3

Pour atteindre des vitesses d'inférence de plus de 6 tokens par seconde, nous recommandons que votre mémoire disponible corresponde ou dépasse la taille du modèle que vous utilisez. Par exemple, un modèle quantifié 1-bit de 30 Go nécessite au moins 150 Go de mémoire. Le quant Q2_K_XL, qui fait 180 Go, nécessitera au moins 180 Go de mémoire unifiée (VRAM + RAM) ou 180 Go de RAM pour des performances optimales.

REMARQUE : Il est possible d'exécuter le modèle avec moins de mémoire totale que sa taille (c.-à-d. moins de VRAM, moins de RAM ou un total combiné inférieur). Cependant, cela entraînera des vitesses d'inférence plus lentes. Une mémoire suffisante n'est requise que si vous souhaitez maximiser le débit et obtenir les temps d'inférence les plus rapides.

⚙️ Paramètres officiels recommandés

Selon Qwen, voici les paramètres recommandés pour l'inférence :

Paramètres en mode non-pensée :

Paramètres en mode pensée :

Température = 0,7

Température = 0,6

Min_P = 0.0 (optionnel, mais 0.01 fonctionne bien, la valeur par défaut de llama.cpp est 0.1)

Min_P = 0.0

Top_P = 0.8

Top_P = 0,95

TopK = 20

Format du modèle de conversation / du prompt :

<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n

Pour le mode NON pensée, nous entourons volontairement <think> et </think> avec rien :

<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n\n</think>\n\n

Pour le mode Pensée, N'UTILISEZ PAS le décodage glouton, car cela peut entraîner une dégradation des performances et des répétitions sans fin.

Basculer entre le mode Pensée et le mode Non-Pensée

Les modèles Qwen3 intègrent un "mode pensée" pour renforcer le raisonnement et améliorer la qualité des réponses — similaire à la façon dont QwQ-32B fonctionnait. Les instructions pour basculer diffèreront selon le moteur d'inférence que vous utilisez, assurez-vous donc d'utiliser les instructions correctes.

Instructions pour llama.cpp et Ollama :

Vous pouvez ajouter /think et /no_think aux prompts utilisateur ou aux messages système pour changer le mode pensée du modèle d'un tour à l'autre. Le modèle suivra la dernière instruction dans les conversations à plusieurs tours.

Voici un exemple de conversation à plusieurs tours :

> Who are you /no_think

<think>

</think>

Je suis Qwen, un grand modèle de langage développé par Alibaba Cloud. [...]

> How many 'r's are in 'strawberries'? /think

<think>
D'accord, voyons. L'utilisateur demande combien de fois la lettre 'r' apparaît dans le mot "strawberries". [...]
</think>

Le mot strawberries contient 3 occurrences de la lettre r. [...]

Instructions pour transformers et vLLM :

Mode pensée :

enable_thinking=True

Par défaut, Qwen3 a la pensée activée. Lorsque vous appelez tokenizer.apply_chat_template, vous

n'avez pas besoin de régler quoi que ce soit manuellement.
    messages,
    text = tokenizer.apply_chat_template(
    tokenize=False,
    add_generation_prompt=True,
)

enable_thinking=True # La valeur par défaut est True En mode pensée, le modèle générera un <think>...</think>

bloc avant la réponse finale — cela lui permet de "planifier" et d'affiner ses réponses.

Mode non-pensée :

enable_thinking=False

n'avez pas besoin de régler quoi que ce soit manuellement.
    messages,
    text = tokenizer.apply_chat_template(
    tokenize=False,
    L'activation du mode non-pensée fera en sorte que Qwen3 ignorera toutes les étapes de réflexion et se comportera comme un LLM normal.
)

enable_thinking=False # Désactive le mode pensée <think> Ce mode fournira directement des réponses finales — pas de

blocs, pas de chaîne de pensée.

Installer ollama 🦙 Ollama : Exécuter le tutoriel Qwen3 voir ici.

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

Exécutez le modèle ! Notez que vous pouvez appeler ollama servedans un autre terminal s'il échoue ! Nous incluons toutes nos corrections et paramètres suggérés (température etc.) dans params dans notre upload Hugging Face !

si vous ne l'avez pas encore fait ! Vous ne pouvez exécuter que des modèles jusqu'à 32B. Pour exécuter le modèle complet 235B-A22B,

ollama run hf.co/unsloth/Qwen3-8B-GGUF:UD-Q4_K_XL

Pour désactiver la pensée, utilisez (ou vous pouvez le définir dans le prompt système) :

>>> Écrivez votre prompt ici /nothink

Si vous rencontrez des boucles, Ollama a peut-être défini votre fenêtre de longueur de contexte à environ 2 048. Dans ce cas, augmentez-la à 32 000 et voyez si le problème persiste.

Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer 📖 Llama.cpp : Exécuter le tutoriel Qwen3

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    ). Vous pouvez choisir Q4_K_M, ou d'autres versions quantifiées.
    repo_id = "unsloth/Qwen3-14B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

local_dir = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # Ou "unsloth/Qwen3-VL-8B-Thinking-GGUF"

./llama.cpp/llama-cli \
    local_dir = "unsloth/Qwen3-14B-GGUF",
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20 \
    --model unsloth/Qwen3-14B-GGUF/Qwen3-14B-UD-Q2_K_XL.gguf \

ollama run hf.co/unsloth/Qwen3-8B-GGUF:UD-Q4_K_XL

Pour désactiver la pensée, utilisez (ou vous pouvez le définir dans le prompt système) :

-no-cnv

Exécution de Qwen3-235B-A22B

Pour Qwen3-VL-235B-A22B, nous utiliserons llama.cpp pour une inférence optimisée et une pléthore d'options.

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer Nous suivons des étapes similaires à celles ci‑dessus, cependant cette fois nous devrons également effectuer des étapes supplémentaires car le modèle est si volumineux.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    Pour Qwen3-235B-A22B, nous utiliserons spécifiquement Llama.cpp pour une inférence optimisée et une pléthore d'options.
    repo_id = "unsloth/Qwen3-235B-A22B-GGUF",
    local_dir = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF",
)

local_dir = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # Ou "unsloth/Qwen3-VL-8B-Thinking-GGUF"
Modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 99 pour le déchargement sur GPU du nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous avez uniquement une inférence CPU.

Utilisez -ot ".ffn_.*_exps.=CPU" pour décharger toutes les couches MoE sur le CPU ! Cela vous permet effectivement de placer toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous avez plus de capacité GPU.

./llama.cpp/llama-cli \
    local_dir = "unsloth/Qwen3-235B-A22B-GGUF",
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20 \
    -no-cnv \
    --model unsloth/Qwen3-235B-A22B-GGUF/Qwen3-235B-A22B-UD-Q2_K_XL.gguf \

--prompt "<|im_start|>user\nCreate a Flappy Bird game in Python. You must include these things:\n1. You must use pygame.\n2. The background color should be randomly chosen and is a light shade. Start with a light blue color.\n3. Pressing SPACE multiple times will accelerate the bird.\n4. The bird's shape should be randomly chosen as a square, circle or triangle. The color should be randomly chosen as a dark color.\n5. Place on the bottom some land colored as dark brown or yellow chosen randomly.\n6. Make a score shown on the top right side. Increment if you pass pipes and don't hit them.\n7. Make randomly spaced pipes with enough space. Color them randomly as dark green or light brown or a dark gray shade.\n8. When you lose, show the best score. Make the text inside the screen. Pressing q or Esc will quit the game. Restarting is pressing SPACE again.\nThe final game should be inside a markdown section in Python. Check your code for errors and fix them before the final markdown section.<|im_end|>\n<|im_start|>assistant\n"

🦥 Fine-tuning de Qwen3 avec Unsloth

Unsloth rend le fine-tuning de Qwen3 2× plus rapide, utilise 70 % moins de VRAM et prend en charge des longueurs de contexte 8× plus longues. Qwen3 (14B) tient confortablement dans un GPU Tesla T4 de 16 Go VRAM sur Google Colab. 75 % de raisonnement et 25 % sans raisonnement dans votre jeu de données pour faire en sorte que le modèle conserve ses capacités de raisonnement.

Parce que Qwen3 prend en charge à la fois le raisonnement et le non-raisonnement, vous pouvez l'affiner avec un jeu de données non-raisonnant, mais cela peut affecter sa capacité de raisonnement. Si vous souhaitez maintenir ses capacités de raisonnement (optionnel), vous pouvez utiliser un mélange de réponses directes et d'exemples de chaînes de pensée. Utilisez

Notre carnet Conversationnel utilise un mélange de 75 % du jeu de données open-math-reasoning de NVIDIA et 25 % du jeu de données FineTome de Maxime (non-raisonnement). Voici des carnets Colab Unsloth gratuits pour affiner Qwen3 : (recommandé)
Qwen3 (14B) Carnet Raisonnement + Conversationnel Qwen3 (4B)
- GRPO LoRA avancé Qwen3 (14B) Carnet Alpaca

Si vous avez une ancienne version d’Unsloth et/ou affinez localement, installez la dernière version d’Unsloth :

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

(pour les modèles de base)

Fine-tuning des modèles Qwen3 MOE La prise en charge du fine-tuning inclut notre nouvelle mise à jour 2026 MOE plus rapide

: 30B-A3B et 235B-A22B. Qwen3-30B-A3B fonctionne avec seulement 17,5 Go de VRAM avec Unsloth. Pour le fine-tuning des MoE — ce n'est probablement pas une bonne idée d'affiner la couche du routeur, nous l'avons donc désactivée par défaut.

Le 30B-A3B tient sur 17,5 Go de VRAM, mais il se peut que vous manquiez de RAM ou d'espace disque puisque le modèle complet en 16 bits doit être téléchargé et converti en 4 bits à la volée pour le fine-tuning QLoRA. Cela est dû à des problèmes d'importation directe des modèles MOE BnB 4 bits. Cela n'affecte que les modèles MOE.
import torch
from unsloth import FastModel
    model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B",
    max_seq_length = 2048, # Choisissez n'importe quelle valeur pour un long contexte !
    load_in_8bit = False, # [NOUVEAU !] Un peu plus précis, utilise 2x la mémoire
    full_finetuning = False, # [NOUVEAU !] Nous avons maintenant l'affinage complet !
    # token = "hf_...", # en utiliser un si vous utilisez des modèles restreints
)

load_in_4bit = True, # Quantification 4 bits pour réduire la mémoire

Guide du carnet :

Pour utiliser les carnets, cliquez simplement sur Runtime, puis Run all. Vous pouvez modifier les paramètres dans le carnet comme vous le souhaitez. Nous les avons définis automatiquement par défaut. Changez le nom du modèle par celui que vous souhaitez en le faisant correspondre au nom du modèle sur Hugging Face, par ex. 'unsloth/Qwen3-8B' ou 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.

Il y a d'autres paramètres que vous pouvez basculer : max_seq_length = 2048
– Contrôle la longueur de contexte. Alors que Qwen3 prend en charge 40960, nous recommandons 2048 pour les tests. Unsloth permet un fine-tuning avec un contexte 8× plus long. load_in_4bit = True
– Active la quantification 4 bits, réduisant l'utilisation de la mémoire par 4× pour le fine-tuning sur des GPU 16 Go. Pour full-finetuning - définissez et full_finetuning = True full-finetuning finetuning en 8 bits

load_in_8bit = True Si vous souhaitez lire un guide complet de bout en bout sur l'utilisation des carnets Unsloth pour le fine-tuning ou simplement en apprendre davantage sur le fine-tuning, la création de jeux de données etc., consultez notre:

🧬Fine-tuning Guide 📈Guide des jeux de données

guide complet ici

GRPO avec Qwen3

Qwen3 (14B) Carnet Raisonnement + Conversationnel Nous avons créé un nouveau carnet GRPO avancé pour le fine-tuning de Qwen3. Apprenez à utiliser notre nouvelle fonction de récompense basée sur la proximité (les réponses plus proches = récompensées) et le jeu de données Open-R1 math de Hugging Face. Unsloth dispose désormais également de meilleures évaluations et utilise la dernière version de vLLM.

carnet - GRPO LoRA avancé

Apprenez à propos de :
Activation du raisonnement dans Qwen3 (Base)+ et le guider pour effectuer une tâche spécifique
Pré-finetuning pour contourner la tendance de GRPO à apprendre le formatage
Amélioration de la précision d'évaluation via un nouveau matching regex
Modèles GRPO personnalisés au-delà de 'think', par ex. <start_working_out></end_working_out>

PrécédentLong Context gpt-oss SuivantQwen3-VL

Mis à jour il y a 7 heures

Ce contenu vous a-t-il été utile ?

hashtagQwen3 - Unsloth Dynamic 2.0 avec des configurations optimales :

hashtag🖥️ Exécution de Qwen3

hashtag⚙️ Paramètres officiels recommandés

hashtagBasculer entre le mode Pensée et le mode Non-Pensée

hashtagInstructions pour llama.cpp et Ollama :

hashtagInstructions pour transformers et vLLM :

hashtagblocs, pas de chaîne de pensée.

hashtagSi vous rencontrez des boucles, Ollama a peut-être défini votre fenêtre de longueur de contexte à environ 2 048. Dans ce cas, augmentez-la à 32 000 et voyez si le problème persiste.

hashtag-no-cnv

hashtag(pour les modèles de base)

hashtagload_in_4bit = True, # Quantification 4 bits pour réduire la mémoire

hashtagguide complet ici

Qwen3 - Unsloth Dynamic 2.0 avec des configurations optimales :

🖥️ Exécution de Qwen3

⚙️ Paramètres officiels recommandés

Basculer entre le mode Pensée et le mode Non-Pensée

Instructions pour llama.cpp et Ollama :

Instructions pour transformers et vLLM :

blocs, pas de chaîne de pensée.

Si vous rencontrez des boucles, Ollama a peut-être défini votre fenêtre de longueur de contexte à environ 2 048. Dans ce cas, augmentez-la à 32 000 et voyez si le problème persiste.

-no-cnv

(pour les modèles de base)

load_in_4bit = True, # Quantification 4 bits pour réduire la mémoire

guide complet ici