🌠Qwen3-Next : Guide d'exécution locale
Exécutez Qwen3-Next-80B-A3B-Instruct et les versions Thinking localement sur votre appareil !
Qwen a publié Qwen3-Next en sept. 2025, qui sont des MoEs de 80B avec des variantes de modèle Thinking et Instruct de Qwen3. Avec un contexte de 256K, Qwen3-Next a été conçu avec une toute nouvelle architecture (hybride de MoEs & Gated DeltaNet + Gated Attention) qui optimise spécifiquement pour une inférence rapide sur de longues longueurs de contexte. Qwen3-Next a une inférence 10x plus rapide que Qwen3-32B.
Exécuter Qwen3-Next InstructExécuter Qwen3-Next Thinking
GGUF dynamiques Qwen3-Next-80B-A3B : Instruct • Réflexion
⚙️ Guide d'utilisation
NOUVEAU au 6 déc. 2025 : Unsloth Qwen3-Next maintenant mis à jour avec iMatrix pour de meilleures performances.
Le modèle thinking utilise température = 0.6, mais le modèle instruct utilise temperature = 0.7
Le modèle thinking utilise top_p = 0.95, mais le modèle instruct utilise top_p = 0.8
Pour obtenir des performances optimales, Qwen recommande ces paramètres :
Température = 0.7
Température = 0.6
Min_P = 0.00 (la valeur par défaut de llama.cpp est 0.1)
Min_P = 0.00 (la valeur par défaut de llama.cpp est 0.1)
Top_P = 0.80
Top_P = 0.95
TopK = 20
TopK = 20
presence_penalty = 0.0 à 2.0 (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez utiliser ceci)
presence_penalty = 0.0 à 2.0 (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez utiliser ceci)
Longueur de sortie adéquate : Utilisez une longueur de sortie de 32,768 tokens pour la plupart des requêtes pour la variante thinking, et 16,384 pour la variante instruct. Vous pouvez augmenter la taille de sortie maximale pour le modèle thinking si nécessaire.
Modèle de chat pour les deux Thinking (thinking a <think></think>) et Instruct est ci-dessous :
<|im_start|>user
Salut !<|im_end|>
<|im_start|>assistant
Quel est 1+1 ?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant📖 Exécuter les tutoriels Qwen3-Next
Ci-dessous se trouvent des guides pour les Réflexion et Instruct versions du modèle.
Instruct : Qwen3-Next-80B-A3B-Instruct
Étant donné qu'il s'agit d'un modèle non-thinking, le modèle ne génère pas <think> </think> blocs.
⚙️Meilleures pratiques
Pour obtenir des performances optimales, Qwen recommande les paramètres suivants :
Nous suggérons d'utiliser
temperature=0.7, top_p=0.8, top_k=20, et min_p=0.0presence_penaltyentre 0 et 2 si le framework le supporte afin de réduire les répétitions sans fin.temperature = 0.7top_k = 20min_p = 0.00(la valeur par défaut de llama.cpp est 0.1)top_p = 0.80presence_penalty = 0.0 à 2.0(la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser) Essayez 1.0 par exemple.Prend en charge jusqu'à
262,144contexte nativement mais vous pouvez le définir sur32,768tokens pour une utilisation moindre de RAM
✨ Llama.cpp : Exécuter le tutoriel Qwen3-Next-80B-A3B-Instruct
Obtenez le dernier
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Vous pouvez récupérer directement depuis HuggingFace via :
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisirUD_Q4_K_XLou d'autres versions quantifiées.
Thinking : Qwen3-Next-80B-A3B-Thinking
Ce modèle prend en charge uniquement le mode thinking et une fenêtre de contexte de 256K nativement. Le modèle de chat par défaut ajoute <think> automatiquement, donc vous pouvez voir seulement une balise de fermeture </think> dans la sortie.
⚙️Meilleures pratiques
Pour obtenir des performances optimales, Qwen recommande les paramètres suivants :
Nous suggérons d'utiliser
temperature=0.6, top_p=0.95, top_k=20, et min_p=0.0presence_penaltyentre 0 et 2 si le framework le supporte afin de réduire les répétitions sans fin.température = 0.6top_k = 20min_p = 0.00(la valeur par défaut de llama.cpp est 0.1)top_p = 0.95presence_penalty = 0.0 à 2.0(la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser) Essayez 1.0 par exemple.Prend en charge jusqu'à
262,144contexte nativement mais vous pouvez le définir sur32,768tokens pour une utilisation moindre de RAM
✨ Llama.cpp : Exécuter le tutoriel Qwen3-Next-80B-A3B-Thinking
Obtenez le dernier
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Vous pouvez extraire directement depuis Hugging Face via :
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisirUD_Q4_K_XLou d'autres versions quantifiées.
🛠️ Améliorer la vitesse de génération
Si vous avez plus de VRAM, vous pouvez essayer de décharger plus de couches MoE, ou de décharger des couches complètes elles-mêmes.
Normalement, -ot ".ffn_.*_exps.=CPU" décharge toutes les couches MoE vers le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous disposez de plus de capacité GPU.
Si vous avez un peu plus de mémoire GPU, essayez -ot ".ffn_(up|down)_exps.=CPU" Cela décharge les couches MoE de projection up et down.
Essayez -ot ".ffn_(up)_exps.=CPU" si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection up.
Vous pouvez aussi personnaliser le regex, par exemple -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" signifie décharger les couches MoE gate, up et down mais seulement à partir de la 6e couche.
Le dernière version de llama.cpp introduit également le mode haut débit. Utilisez llama-parallel. Lisez-en davantage ici. Vous pouvez aussi quantifier le cache KV en 4 bits par exemple pour réduire les mouvements de VRAM / RAM, ce qui peut aussi accélérer le processus de génération. Le prochain section parle de la quantification du cache KV.
📐Comment adapter un long contexte
Pour adapter un contexte plus long, vous pouvez utiliser la quantification du cache KV pour quantifier les caches K et V en moins de bits. Cela peut aussi augmenter la vitesse de génération en réduisant les mouvements de données RAM / VRAM. Les options autorisées pour la quantification K (par défaut est f16) incluent ci-dessous.
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
Vous devriez utiliser les _1 variantes pour une précision quelque peu accrue, bien que ce soit légèrement plus lent. Par ex. q4_1, q5_1 Donc essayez --cache-type-k q4_1
Vous pouvez aussi quantifier le cache V, mais vous devrez compiler llama.cpp avec le support Flash Attention via -DGGML_CUDA_FA_ALL_QUANTS=ON, et utiliser --flash-attn pour l'activer. Après avoir installé Flash Attention, vous pouvez alors utiliser --cache-type-v q4_1

Mis à jour
Ce contenu vous a-t-il été utile ?

