🌠Qwen3-Coder-Next : Comment exécuter localement

Guide pour exécuter Qwen3-Coder-Next localement sur votre appareil !

Qwen publie Qwen3-Coder-Next, un modèle MoE de 80B (3B paramètres actifs) avec contexte 256K pour un codage agentif rapide et une utilisation locale. Il est comparable aux performances de modèles ayant 10–20× plus de paramètres actifs.

Il fonctionne sur 46 Go de RAM/VRAM/mémoire unifiée (85 Go pour 8 bits), est en mode non-réflexion pour des réponses de code ultra-rapides. Le modèle excelle en raisonnement à long terme, utilisation complexe d'outils et récupération après des échecs d'exécution.

circle-check

Vous apprendrez aussi à exécuter le modèle sur Codex & Claude Code. Pour l'ajustement fin, Qwen3-Next-Coder tient sur un seul GPU B200 pour LoRA en bf16 dans Unsloth.

Qwen3-Coder-Next Unsloth GGUF dynamiques pour exécuter : unsloth/Qwen3-Coder-Next-GGUFarrow-up-right

Tutoriel exécution GGUFCodex & Claude CodeTutoriel FP8 vLLM

⚙️ Guide d'utilisation

Vous n'avez pas 46 Go de RAM ou de mémoire unifiée ? Pas de souci, vous pouvez exécuter nos quantifications plus petites comme 3 bits. Il est préférable que la taille du modèle = la somme de votre capacité de calcul ( espace disque + RAM + VRAM ≥ taille de la quantification). Si votre quantification tient entièrement sur votre appareil, attendez-vous à 20+ tokens/s. Si elle ne tient pas, cela fonctionnera toujours en déchargeant mais ce sera plus lent.

Pour obtenir des performances optimales, Qwen recommande ces paramètres :

  • Température = 1,0

  • Top_P = 0,95

  • Top_K = 40

  • Min_P = 0,01 (la valeur par défaut de llama.cpp est 0,05)

  • pénalité de répétition = désactivée ou 1,0

Prend en charge jusqu'à 262,144 contexte nativement mais vous pouvez le définir sur 32,768 tokens pour moins d'utilisation de mémoire.

🖥️ Exécuter Qwen3-Coder-Next

Selon votre cas d'utilisation, vous devrez utiliser des paramètres différents. Comme ce guide utilise du 4 bits, vous aurez besoin d'environ 46 Go de RAM/mémoire unifiée. Nous recommandons d'utiliser au moins la précision 3 bits pour de meilleures performances.

circle-check
circle-info

REMARQUE : Ce modèle ne supporte que le mode non-pensée et ne génère pas <think></think> blocs dans sa sortie. Donc en spécifiant enable_thinking=False n'est plus requis.

Tutoriel Llama.cpp (GGUF) :

Instructions pour exécuter dans llama.cpp (notez que nous utiliserons du 4 bits pour tenir sur la plupart des appareils) :

1

Obtenez le dernier llama.cpp sur GitHub iciarrow-up-right. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.

2

Vous pouvez directement récupérer depuis Hugging Face. Vous pouvez augmenter le contexte à 256K si votre RAM/VRAM peut le contenir. L'utilisation de --fit on déterminera aussi automatiquement la longueur du contexte.

Vous pouvez utiliser les paramètres recommandés : temperature=1.0, temperature=0.6, top_k=40

3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub). Vous pouvez choisir UD-Q4_K_XL ou d'autres versions quantifiées.

4

Ensuite, exécutez le modèle en mode conversation :

Ajustez également fenêtre de contexte au besoin, jusqu'à 262,144

circle-info

REMARQUE : Ce modèle ne supporte que le mode non-pensée et ne génère pas <think></think> blocs dans sa sortie. Donc en spécifiant enable_thinking=False n'est plus requis.

🦙Service & déploiement Llama-server

Pour déployer Qwen3-Coder-Next en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux. Puis, déployez le modèle via :

Puis, dans un nouveau terminal, après avoir fait pip install openai, nous pouvons exécuter le modèle :

Ce qui produira :

Nous avons extrait le HTML et l'avons exécuté, et l'exemple de jeu Flappy Bird généré a bien fonctionné !

👾 OpenAI Codex & Claude Code

Pour exécuter le modèle via des charges de travail agentives de codage locales, vous pouvez suivre notre guide. Changez simplement le nom du modèle 'GLM-4.7-Flash' en 'Qwen3-Coder-Next' et assurez-vous de suivre les bons paramètres et instructions d'utilisation de Qwen3-Coder-Next. Utilisez le llama-server que nous venons de configurer à l'instant.

codeClaude Code & OpenAI Codexchevron-right

Après avoir suivi les instructions pour Claude Code par exemple, vous verrez :

Nous pouvons alors demander par exemple Créez un jeu Python pour les échecs :

Si vous voyez Erreur API : 400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} cela signifie que vous devez augmenter la longueur du contexte ou voir 📐Comment adapter un long contexte

🎱 FP8 Qwen3-Coder-Next dans vLLM

Vous pouvez maintenant utiliser notre nouveau quant FP8 dynamiquearrow-up-right du modèle pour une inférence premium et rapide. Installez d'abord vLLM depuis la version nightly. Changez --extra-index-url https://wheels.vllm.ai/nightly/cu130 pour votre version CUDA trouvée via nvidia-smi - uniquement cu129 et cu130 sont actuellement pris en charge.

Ensuite servez La version FP8 dynamique d'Unslotharrow-up-right du modèle. Vous pouvez aussi activer FP8 pour réduire l'utilisation mémoire du cache KV de 50% en ajoutant --kv-cache-dtype fp8 Nous l'avons servi sur 4 GPU, mais si vous avez 1 GPU, utilisez CUDA_VISIBLE_DEVICES='0' et définir --tensor-parallel-size 1 ou retirez cet argument. Utilisez tmux pour lancer ce qui suit dans un nouveau terminal puis CTRL+B+D - utilisez tmux attach-session -t0 pour y revenir.

Vous devriez voir quelque chose comme ci-dessous. Voir Qwen3-Coder-Next pour comment utiliser réellement Qwen3-Coder-Next via l'API OpenAI et l'appel d'outils - cela fonctionne pour vLLM et llama-server.

🔧Appel d'outils avec Qwen3-Coder-Next

Dans un nouveau terminal, nous créons quelques outils comme l'addition de 2 nombres, l'exécution de code Python, l'exécution de fonctions Linux et bien plus encore :

Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonctions et appelleront le point de terminaison OpenAI pour n'importe quel modèle :

Nous allons maintenant présenter plusieurs méthodes d'exécution d'appels d'outils pour de nombreux cas d'utilisation ci-dessous :

Exécuter du code Python généré

Exécuter des fonctions arbitraires du terminal

Nous confirmons que le fichier a été créé et c'est le cas !

Voir Tool Calling Guide pour plus d'exemples d'appel d'outils.

🛠️ Améliorer la vitesse de génération

circle-check

Si vous avez plus de VRAM, vous pouvez essayer de décharger plus de couches MoE, ou de décharger des couches complètes elles-mêmes.

Normalement, -ot ".ffn_.*_exps.=CPU" décharge toutes les couches MoE vers le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous disposez de plus de capacité GPU.

Si vous avez un peu plus de mémoire GPU, essayez -ot ".ffn_(up|down)_exps.=CPU" Cela décharge les couches MoE de projection up et down.

Essayez -ot ".ffn_(up)_exps.=CPU" si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection up.

Vous pouvez aussi personnaliser le regex, par exemple -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" signifie décharger les couches MoE gate, up et down mais seulement à partir de la 6e couche.

Le dernière version de llama.cpparrow-up-right introduit également le mode haut débit. Utilisez llama-parallel. Lisez-en davantage iciarrow-up-right. Vous pouvez aussi quantifier le cache KV en 4 bits par exemple pour réduire les mouvements de VRAM / RAM, ce qui peut aussi accélérer le processus de génération. Le prochain section parle de la quantification du cache KV.

📐Comment adapter un long contexte

Pour adapter un contexte plus long, vous pouvez utiliser la quantification du cache KV pour quantifier les caches K et V en moins de bits. Cela peut aussi augmenter la vitesse de génération en réduisant les mouvements de données RAM / VRAM. Les options autorisées pour la quantification K (par défaut est f16) incluent ci-dessous.

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

Vous devriez utiliser les _1 variantes pour une précision quelque peu accrue, bien que ce soit légèrement plus lent. Par ex. q4_1, q5_1 Donc essayez --cache-type-k q4_1

Vous pouvez aussi quantifier le cache V, mais vous devrez compiler llama.cpp avec le support Flash Attention via -DGGML_CUDA_FA_ALL_QUANTS=ON, et utiliser --flash-attn pour l'activer. Après avoir installé Flash Attention, vous pouvez alors utiliser --cache-type-v q4_1

Si vous utilisez nos quantifications FP8 dynamiques Qwen3-Coder-Nextalors l'utilisation de la quantification FP8 du cache KV peut approximativement doubler le support de la longueur du contexte. Ajoutez --kv-cache-dtype fp8

📐Benchmarks

Qwen3-Coder-Next est le modèle offrant les meilleures performances pour sa taille, et ses performances sont comparables à celles de modèles ayant 10–20× plus de paramètres actifs.

Benchmark
Qwen3-Coder-Next (80B)
DeepSeek-V3.2 (671B)
GLM-4.7 (358B)
MiniMax M2.1 (229B)

SWE-Bench Vérifié (avec SWE-Agent)

70.6

70.2

74.2

74.8

SWE-Bench Multilingue (avec SWE-Agent)

62.8

62.3

63.7

66.2

SWE-Bench Pro (avec SWE-Agent)

44.3

40.9

40.6

34.6

Terminal-Bench 2.0 (avec Terminus-2 json)

36.2

39.3

37.1

32.6

Aider

66.2

69.9

52.1

61.0

Mis à jour

Ce contenu vous a-t-il été utile ?