🌠Qwen3-Next : Guide d'exécution locale
Exécutez Qwen3-Next-80B-A3B-Instruct et les versions Thinking localement sur votre appareil !
Qwen a publié Qwen3-Next en sept. 2025, qui sont des MoE de 80B avec des variantes de modèle Thinking et Instruct de Qwen3. Avec un contexte de 256K, Qwen3-Next a été conçu avec une toute nouvelle architecture (hybride de MoEs & Gated DeltaNet + Gated Attention) qui optimise spécifiquement les inférences rapides sur de plus longues longueurs de contexte. Qwen3-Next a une inférence 10x plus rapide que Qwen3-32B.
Lancer Qwen3-Next InstructLancer Qwen3-Next Thinking
GGUF dynamiques Qwen3-Next-80B-A3B : Instruct • Thinking
⚙️ Guide d'utilisation
NOUVEAU au 6 déc. 2025 : Unsloth Qwen3-Next mis à jour avec iMatrix pour de meilleures performances.
Le modèle thinking utilise température = 0,6, mais le modèle instruct utilise température = 0,7
Le modèle thinking utilise top_p = 0,95, mais le modèle instruct utilise top_p = 0,8
Pour obtenir des performances optimales, Qwen recommande ces réglages :
Température = 0,7
Température = 0,6
Min_P = 0,00 (la valeur par défaut de llama.cpp est 0,1)
Min_P = 0,00 (la valeur par défaut de llama.cpp est 0,1)
Top_P = 0,80
Top_P = 0,95
TopK = 20
TopK = 20
presence_penalty = 0.0 à 2.0 (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser)
presence_penalty = 0.0 à 2.0 (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser)
Longueur de sortie adéquate : Utilisez une longueur de sortie de 32,768 tokens pour la plupart des requêtes pour la variante thinking, et 16,384 pour la variante instruct. Vous pouvez augmenter la taille maximale de sortie pour le modèle thinking si nécessaire.
Le modèle de conversation pour les deux Thinking (thinking a <think></think>) et Instruct est ci-dessous :
<|im_start|>user
Salut !<|im_end|>
<|im_start|>assistant
Quelle est la valeur de 1+1 ?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant📖 Lancer les tutoriels Qwen3-Next
Ci-dessous figurent des guides pour les Thinking et Instruct versions du modèle.
Instruct : Qwen3-Next-80B-A3B-Instruct
Étant donné qu'il s'agit d'un modèle non-thinking, le modèle ne génère pas <think> </think> blocs.
⚙️ Bonnes pratiques
Pour obtenir des performances optimales, Qwen recommande les réglages suivants :
Nous suggérons d'utiliser
temperature=0.7, top_p=0.8, top_k=20, et min_p=0.0presence_penaltyentre 0 et 2 si le framework le prend en charge afin de réduire les répétitions sans fin.température = 0,7top_k = 20min_p = 0.00(la valeur par défaut de llama.cpp est 0,1)top_p = 0.80presence_penalty = 0.0 à 2.0(la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser) Essayez 1.0 par exemple.Prend en charge jusqu'à
262,144contexte nativement mais vous pouvez le régler sur32,768tokens pour une utilisation de RAM réduite
✨ Llama.cpp : Lancer le tutoriel Qwen3-Next-80B-A3B-Instruct
Obtenez la dernière
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n’avez pas de GPU ou si vous voulez simplement l’inférence CPU. Pour les appareils Apple Mac / Metal, définissez-DGGML_CUDA=OFFpuis continuez comme d'habitude - le support Metal est activé par défaut.
Vous pouvez le récupérer directement depuis HuggingFace via :
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisirUD_Q4_K_XLou d'autres versions quantifiées.
Thinking : Qwen3-Next-80B-A3B-Thinking
Ce modèle prend en charge uniquement le mode thinking et une fenêtre de contexte de 256K nativement. Le modèle de conversation par défaut ajoute <think> automatiquement, donc vous pouvez voir seulement une balise de fermeture </think> dans la sortie.
⚙️ Bonnes pratiques
Pour obtenir des performances optimales, Qwen recommande les réglages suivants :
Nous suggérons d'utiliser
temperature=0.6, top_p=0.95, top_k=20, et min_p=0.0presence_penaltyentre 0 et 2 si le framework le prend en charge afin de réduire les répétitions sans fin.température = 0,6top_k = 20min_p = 0.00(la valeur par défaut de llama.cpp est 0,1)top_p = 0,95presence_penalty = 0.0 à 2.0(la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser) Essayez 1.0 par exemple.Prend en charge jusqu'à
262,144contexte nativement mais vous pouvez le régler sur32,768tokens pour une utilisation de RAM réduite
✨ Llama.cpp : Lancer le tutoriel Qwen3-Next-80B-A3B-Thinking
Obtenez la dernière
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n’avez pas de GPU ou si vous voulez simplement l’inférence CPU.
Vous pouvez le récupérer directement depuis Hugging Face via :
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisirUD_Q4_K_XLou d'autres versions quantifiées.
🛠️ Améliorer la vitesse de génération
Si vous avez plus de VRAM, vous pouvez essayer de décharger davantage de couches MoE, ou de décharger des couches entières elles-mêmes.
Normalement, -ot ".ffn_.*_exps.=CPU" décharge toutes les couches MoE vers le CPU ! Cela vous permet effectivement de placer toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous disposez de plus de capacité GPU.
Si vous avez un peu plus de mémoire GPU, essayez -ot ".ffn_(up|down)_exps.=CPU" Cela décharge les couches MoE de projection up et down.
Essayez -ot ".ffn_(up)_exps.=CPU" si vous avez encore plus de mémoire GPU. Cela décharge uniquement les couches MoE de projection up.
Vous pouvez aussi personnaliser la regex, par exemple -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" signifie décharger les couches MoE gate, up et down mais seulement à partir de la 6e couche.
La dernière version de llama.cpp introduit aussi un mode haut débit. Utilisez llama-parallel. En savoir plus à ce sujet ici. Vous pouvez aussi quantifier le cache KV en 4 bits par exemple pour réduire les mouvements VRAM / RAM, ce qui peut aussi accélérer le processus de génération. La section suivante parle de la quantification du cache KV.
📐Comment adapter un long contexte
Pour adapter un contexte plus long, vous pouvez utiliser la quantification du cache KV pour quantifier les caches K et V en moins de bits. Cela peut aussi augmenter la vitesse de génération en raison d'une réduction des transferts de données RAM / VRAM. Les options autorisées pour la quantification de K (la valeur par défaut est f16) incluent ci-dessous.
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
Vous devriez utiliser les _1 variantes pour une précision quelque peu accrue, bien que ce soit légèrement plus lent. Par ex. q4_1, q5_1 Donc essayez --cache-type-k q4_1
Vous pouvez aussi quantifier le cache V, mais vous devrez compiler llama.cpp avec le support Flash Attention via -DGGML_CUDA_FA_ALL_QUANTS=ON, et utiliser --flash-attn pour l'activer. Après avoir installé Flash Attention, vous pouvez alors utiliser --cache-type-v q4_1

Mis à jour
Ce contenu vous a-t-il été utile ?

