🌠Qwen3-Coder-Next : Comment exécuter localement
Guide pour exécuter Qwen3-Coder-Next localement sur votre appareil !
Qwen publie Qwen3-Coder-Next, un modèle MoE de 80B (3B paramètres actifs) avec contexte 256K pour un codage agentif rapide et une utilisation locale. Il est comparable aux performances de modèles ayant 10–20× plus de paramètres actifs.
Il fonctionne sur 46 Go de RAM/VRAM/mémoire unifiée (85 Go pour 8 bits), est en mode non-réflexion pour des réponses de code ultra-rapides. Le modèle excelle en raisonnement à long terme, utilisation complexe d'outils et récupération après des échecs d'exécution.
Mise à jour du 4 févr. : llama.cpp correction d'un bug dans le calcul de key_gdiff vectorisé. Cela corrige des problèmes de bouclage et de sortie précédents. Nous avons mis à jour les GGUF - veuillez retélécharger et MISE À JOUR llama.cpp pour de meilleurs résultats.
Vous apprendrez aussi à exécuter le modèle sur Codex & Claude Code. Pour l'ajustement fin, Qwen3-Next-Coder tient sur un seul GPU B200 pour LoRA en bf16 dans Unsloth.
Qwen3-Coder-Next Unsloth GGUF dynamiques pour exécuter : unsloth/Qwen3-Coder-Next-GGUF
Tutoriel exécution GGUFCodex & Claude CodeTutoriel FP8 vLLM
⚙️ Guide d'utilisation
Vous n'avez pas 46 Go de RAM ou de mémoire unifiée ? Pas de souci, vous pouvez exécuter nos quantifications plus petites comme 3 bits. Il est préférable que la taille du modèle = la somme de votre capacité de calcul ( espace disque + RAM + VRAM ≥ taille de la quantification). Si votre quantification tient entièrement sur votre appareil, attendez-vous à 20+ tokens/s. Si elle ne tient pas, cela fonctionnera toujours en déchargeant mais ce sera plus lent.
Pour obtenir des performances optimales, Qwen recommande ces paramètres :
Température = 1,0Top_P = 0,95Top_K = 40Min_P = 0,01(la valeur par défaut de llama.cpp est 0,05)pénalité de répétition= désactivée ou 1,0
Prend en charge jusqu'à 262,144 contexte nativement mais vous pouvez le définir sur 32,768 tokens pour moins d'utilisation de mémoire.
🖥️ Exécuter Qwen3-Coder-Next
Selon votre cas d'utilisation, vous devrez utiliser des paramètres différents. Comme ce guide utilise du 4 bits, vous aurez besoin d'environ 46 Go de RAM/mémoire unifiée. Nous recommandons d'utiliser au moins la précision 3 bits pour de meilleures performances.
Mise à jour du 4 févr. : llama.cpp correction d'un bug dans le calcul de key_gdiff vectorisé. Cela corrige des problèmes de bouclage et de sortie précédents. Nous avons mis à jour les GGUF - veuillez retélécharger et MISE À JOUR llama.cpp pour de meilleurs résultats.
REMARQUE : Ce modèle ne supporte que le mode non-pensée et ne génère pas <think></think> blocs dans sa sortie. Donc en spécifiant enable_thinking=False n'est plus requis.
Tutoriel Llama.cpp (GGUF) :
Instructions pour exécuter dans llama.cpp (notez que nous utiliserons du 4 bits pour tenir sur la plupart des appareils) :
Obtenez le dernier llama.cpp sur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Vous pouvez directement récupérer depuis Hugging Face. Vous pouvez augmenter le contexte à 256K si votre RAM/VRAM peut le contenir. L'utilisation de --fit on déterminera aussi automatiquement la longueur du contexte.
Vous pouvez utiliser les paramètres recommandés : temperature=1.0, temperature=0.6, top_k=40
Téléchargez le modèle via (après avoir installé pip install huggingface_hub). Vous pouvez choisir UD-Q4_K_XL ou d'autres versions quantifiées.
Ensuite, exécutez le modèle en mode conversation :
Ajustez également fenêtre de contexte au besoin, jusqu'à 262,144
REMARQUE : Ce modèle ne supporte que le mode non-pensée et ne génère pas <think></think> blocs dans sa sortie. Donc en spécifiant enable_thinking=False n'est plus requis.
🦙Service & déploiement Llama-server
Pour déployer Qwen3-Coder-Next en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux. Puis, déployez le modèle via :
Puis, dans un nouveau terminal, après avoir fait pip install openai, nous pouvons exécuter le modèle :
Ce qui produira :
Nous avons extrait le HTML et l'avons exécuté, et l'exemple de jeu Flappy Bird généré a bien fonctionné !

👾 OpenAI Codex & Claude Code
Pour exécuter le modèle via des charges de travail agentives de codage locales, vous pouvez suivre notre guide. Changez simplement le nom du modèle 'GLM-4.7-Flash' en 'Qwen3-Coder-Next' et assurez-vous de suivre les bons paramètres et instructions d'utilisation de Qwen3-Coder-Next. Utilisez le llama-server que nous venons de configurer à l'instant.
Après avoir suivi les instructions pour Claude Code par exemple, vous verrez :

Nous pouvons alors demander par exemple Créez un jeu Python pour les échecs :



Si vous voyez Erreur API : 400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} cela signifie que vous devez augmenter la longueur du contexte ou voir 📐Comment adapter un long contexte

🎱 FP8 Qwen3-Coder-Next dans vLLM
Vous pouvez maintenant utiliser notre nouveau quant FP8 dynamique du modèle pour une inférence premium et rapide. Installez d'abord vLLM depuis la version nightly. Changez --extra-index-url https://wheels.vllm.ai/nightly/cu130 pour votre version CUDA trouvée via nvidia-smi - uniquement cu129 et cu130 sont actuellement pris en charge.
Ensuite servez La version FP8 dynamique d'Unsloth du modèle. Vous pouvez aussi activer FP8 pour réduire l'utilisation mémoire du cache KV de 50% en ajoutant --kv-cache-dtype fp8 Nous l'avons servi sur 4 GPU, mais si vous avez 1 GPU, utilisez CUDA_VISIBLE_DEVICES='0' et définir --tensor-parallel-size 1 ou retirez cet argument. Utilisez tmux pour lancer ce qui suit dans un nouveau terminal puis CTRL+B+D - utilisez tmux attach-session -t0 pour y revenir.
Vous devriez voir quelque chose comme ci-dessous. Voir Qwen3-Coder-Next pour comment utiliser réellement Qwen3-Coder-Next via l'API OpenAI et l'appel d'outils - cela fonctionne pour vLLM et llama-server.

🔧Appel d'outils avec Qwen3-Coder-Next
Dans un nouveau terminal, nous créons quelques outils comme l'addition de 2 nombres, l'exécution de code Python, l'exécution de fonctions Linux et bien plus encore :
Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonctions et appelleront le point de terminaison OpenAI pour n'importe quel modèle :
Nous allons maintenant présenter plusieurs méthodes d'exécution d'appels d'outils pour de nombreux cas d'utilisation ci-dessous :
Exécuter du code Python généré

Exécuter des fonctions arbitraires du terminal
Nous confirmons que le fichier a été créé et c'est le cas !

Voir Tool Calling Guide pour plus d'exemples d'appel d'outils.
🛠️ Améliorer la vitesse de génération
Si vous utilisez vLLM / SGLang, essayez nos quantifications FP8-Dynamic qui peuvent augmenter le débit de 25% ou plus ! Voir Qwen3-Coder-Next
Si vous avez plus de VRAM, vous pouvez essayer de décharger plus de couches MoE, ou de décharger des couches complètes elles-mêmes.
Normalement, -ot ".ffn_.*_exps.=CPU" décharge toutes les couches MoE vers le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous disposez de plus de capacité GPU.
Si vous avez un peu plus de mémoire GPU, essayez -ot ".ffn_(up|down)_exps.=CPU" Cela décharge les couches MoE de projection up et down.
Essayez -ot ".ffn_(up)_exps.=CPU" si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection up.
Vous pouvez aussi personnaliser le regex, par exemple -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" signifie décharger les couches MoE gate, up et down mais seulement à partir de la 6e couche.
Le dernière version de llama.cpp introduit également le mode haut débit. Utilisez llama-parallel. Lisez-en davantage ici. Vous pouvez aussi quantifier le cache KV en 4 bits par exemple pour réduire les mouvements de VRAM / RAM, ce qui peut aussi accélérer le processus de génération. Le prochain section parle de la quantification du cache KV.
📐Comment adapter un long contexte
Pour adapter un contexte plus long, vous pouvez utiliser la quantification du cache KV pour quantifier les caches K et V en moins de bits. Cela peut aussi augmenter la vitesse de génération en réduisant les mouvements de données RAM / VRAM. Les options autorisées pour la quantification K (par défaut est f16) incluent ci-dessous.
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
Vous devriez utiliser les _1 variantes pour une précision quelque peu accrue, bien que ce soit légèrement plus lent. Par ex. q4_1, q5_1 Donc essayez --cache-type-k q4_1
Vous pouvez aussi quantifier le cache V, mais vous devrez compiler llama.cpp avec le support Flash Attention via -DGGML_CUDA_FA_ALL_QUANTS=ON, et utiliser --flash-attn pour l'activer. Après avoir installé Flash Attention, vous pouvez alors utiliser --cache-type-v q4_1
Si vous utilisez nos quantifications FP8 dynamiques Qwen3-Coder-Nextalors l'utilisation de la quantification FP8 du cache KV peut approximativement doubler le support de la longueur du contexte. Ajoutez --kv-cache-dtype fp8
📐Benchmarks
Qwen3-Coder-Next est le modèle offrant les meilleures performances pour sa taille, et ses performances sont comparables à celles de modèles ayant 10–20× plus de paramètres actifs.
SWE-Bench Vérifié (avec SWE-Agent)
70.6
70.2
74.2
74.8
SWE-Bench Multilingue (avec SWE-Agent)
62.8
62.3
63.7
66.2
SWE-Bench Pro (avec SWE-Agent)
44.3
40.9
40.6
34.6
Terminal-Bench 2.0 (avec Terminus-2 json)
36.2
39.3
37.1
32.6
Aider
66.2
69.9
52.1
61.0



Mis à jour
Ce contenu vous a-t-il été utile ?

