🌠Qwen3-Next : Guide d'exécution locale

Exécutez Qwen3-Next-80B-A3B-Instruct et les versions Thinking localement sur votre appareil !

Qwen a publié Qwen3-Next en sept. 2025, qui sont des MoE de 80B avec des variantes de modèle Thinking et Instruct de Qwen3. Avec un contexte de 256K, Qwen3-Next a été conçu avec une toute nouvelle architecture (hybride de MoEs & Gated DeltaNet + Gated Attention) qui optimise spécifiquement les inférences rapides sur de plus longues longueurs de contexte. Qwen3-Next a une inférence 10x plus rapide que Qwen3-32B.

Lancer Qwen3-Next InstructLancer Qwen3-Next Thinking

GGUF dynamiques Qwen3-Next-80B-A3B : Instructarrow-up-rightThinkingarrow-up-right

⚙️ Guide d'utilisation

circle-check

Pour obtenir des performances optimales, Qwen recommande ces réglages :

Instruct :
Thinking :

Température = 0,7

Température = 0,6

Min_P = 0,00 (la valeur par défaut de llama.cpp est 0,1)

Min_P = 0,00 (la valeur par défaut de llama.cpp est 0,1)

Top_P = 0,80

Top_P = 0,95

TopK = 20

TopK = 20

presence_penalty = 0.0 à 2.0 (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser)

presence_penalty = 0.0 à 2.0 (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser)

Longueur de sortie adéquate : Utilisez une longueur de sortie de 32,768 tokens pour la plupart des requêtes pour la variante thinking, et 16,384 pour la variante instruct. Vous pouvez augmenter la taille maximale de sortie pour le modèle thinking si nécessaire.

Le modèle de conversation pour les deux Thinking (thinking a <think></think>) et Instruct est ci-dessous :

<|im_start|>user
Salut !<|im_end|>
<|im_start|>assistant
Quelle est la valeur de 1+1 ?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant

📖 Lancer les tutoriels Qwen3-Next

Ci-dessous figurent des guides pour les Thinking et Instruct versions du modèle.

Instruct : Qwen3-Next-80B-A3B-Instruct

Étant donné qu'il s'agit d'un modèle non-thinking, le modèle ne génère pas <think> </think> blocs.

⚙️ Bonnes pratiques

Pour obtenir des performances optimales, Qwen recommande les réglages suivants :

  • Nous suggérons d'utiliser temperature=0.7, top_p=0.8, top_k=20, et min_p=0.0 presence_penalty entre 0 et 2 si le framework le prend en charge afin de réduire les répétitions sans fin.

  • température = 0,7

  • top_k = 20

  • min_p = 0.00 (la valeur par défaut de llama.cpp est 0,1)

  • top_p = 0.80

  • presence_penalty = 0.0 à 2.0 (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser) Essayez 1.0 par exemple.

  • Prend en charge jusqu'à 262,144 contexte nativement mais vous pouvez le régler sur 32,768 tokens pour une utilisation de RAM réduite

Llama.cpp : Lancer le tutoriel Qwen3-Next-80B-A3B-Instruct

  1. Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous voulez simplement l’inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

  1. Vous pouvez le récupérer directement depuis HuggingFace via :

  2. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.

Thinking : Qwen3-Next-80B-A3B-Thinking

Ce modèle prend en charge uniquement le mode thinking et une fenêtre de contexte de 256K nativement. Le modèle de conversation par défaut ajoute <think> automatiquement, donc vous pouvez voir seulement une balise de fermeture </think> dans la sortie.

⚙️ Bonnes pratiques

Pour obtenir des performances optimales, Qwen recommande les réglages suivants :

  • Nous suggérons d'utiliser temperature=0.6, top_p=0.95, top_k=20, et min_p=0.0 presence_penalty entre 0 et 2 si le framework le prend en charge afin de réduire les répétitions sans fin.

  • température = 0,6

  • top_k = 20

  • min_p = 0.00 (la valeur par défaut de llama.cpp est 0,1)

  • top_p = 0,95

  • presence_penalty = 0.0 à 2.0 (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser) Essayez 1.0 par exemple.

  • Prend en charge jusqu'à 262,144 contexte nativement mais vous pouvez le régler sur 32,768 tokens pour une utilisation de RAM réduite

Llama.cpp : Lancer le tutoriel Qwen3-Next-80B-A3B-Thinking

  1. Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous voulez simplement l’inférence CPU.

  1. Vous pouvez le récupérer directement depuis Hugging Face via :

  2. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.

🛠️ Améliorer la vitesse de génération

Si vous avez plus de VRAM, vous pouvez essayer de décharger davantage de couches MoE, ou de décharger des couches entières elles-mêmes.

Normalement, -ot ".ffn_.*_exps.=CPU" décharge toutes les couches MoE vers le CPU ! Cela vous permet effectivement de placer toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous disposez de plus de capacité GPU.

Si vous avez un peu plus de mémoire GPU, essayez -ot ".ffn_(up|down)_exps.=CPU" Cela décharge les couches MoE de projection up et down.

Essayez -ot ".ffn_(up)_exps.=CPU" si vous avez encore plus de mémoire GPU. Cela décharge uniquement les couches MoE de projection up.

Vous pouvez aussi personnaliser la regex, par exemple -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" signifie décharger les couches MoE gate, up et down mais seulement à partir de la 6e couche.

La dernière version de llama.cpparrow-up-right introduit aussi un mode haut débit. Utilisez llama-parallel. En savoir plus à ce sujet iciarrow-up-right. Vous pouvez aussi quantifier le cache KV en 4 bits par exemple pour réduire les mouvements VRAM / RAM, ce qui peut aussi accélérer le processus de génération. La section suivante parle de la quantification du cache KV.

📐Comment adapter un long contexte

Pour adapter un contexte plus long, vous pouvez utiliser la quantification du cache KV pour quantifier les caches K et V en moins de bits. Cela peut aussi augmenter la vitesse de génération en raison d'une réduction des transferts de données RAM / VRAM. Les options autorisées pour la quantification de K (la valeur par défaut est f16) incluent ci-dessous.

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

Vous devriez utiliser les _1 variantes pour une précision quelque peu accrue, bien que ce soit légèrement plus lent. Par ex. q4_1, q5_1 Donc essayez --cache-type-k q4_1

Vous pouvez aussi quantifier le cache V, mais vous devrez compiler llama.cpp avec le support Flash Attention via -DGGML_CUDA_FA_ALL_QUANTS=ON, et utiliser --flash-attn pour l'activer. Après avoir installé Flash Attention, vous pouvez alors utiliser --cache-type-v q4_1

Mis à jour

Ce contenu vous a-t-il été utile ?