💜Qwen3.5 - Guide d'exécution locale
Exécutez les nouveaux LLMs Qwen3.5 incluant Medium : Qwen3.5-35B-A3B, 27B, 122B-A10B, Small : Qwen3.5-0.8B, 2B, 4B, 9B et 397B-A17B sur votre appareil local !
Qwen3.5 est la nouvelle famille de modèles d'Alibaba, incluant Qwen3.5-35B-A3B, 27B, 122B-A10B et 397B-A17B et la nouvelle Petite série : Qwen3.5-0.8B, 2B, 4B et 9B. Les LLMs hybrides multimodaux de raisonnement offrent les meilleures performances pour leur taille. Ils prennent en charge contexte 256K sur 201 langues, disposent de réflexion + non-réflexion, et excellent en codage agentif, vision, chat et tâches à long contexte. Les modèles 35B et 27B fonctionnent sur un appareil Mac / RAM de 22 Go. Voir tous les GGUFs ici.
Mise à jour du 5 mars : Retéléchargez Qwen3.5-35B, 27B, 122B et 397B.
Tous les GGUFs sont désormais mis à jour avec une quantification améliorée algorithme.
Tous utilisent notre nouvelle donnée imatrix. Voyez quelques améliorations dans le chat, le codage, le long contexte et les cas d'utilisation d'appel d'outils.
Appel d'outils amélioré suite à nos corrections de modèle de chat. La correction est universelle et s'applique à tout format Qwen3.5 et tout téléverseur.
Consultez les nouveaux benchmarks GGUF pour les résultats de performance Unsloth + notre investigation MXFP4.
Nous retirons les couches MXFP4 de 3 GGUFs Qwen3.5 : Q2_K_XL, Q3_K_XL et Q4_K_XL.
Tous les téléversements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - donc le 4 bits a des couches importantes surclassées en 8 ou 16 bits. Merci à Qwen d'avoir fourni à Unsloth un accès day zero. Vous pouvez aussi affiner Qwen3.5 avec Unsloth.
Pour activer ou désactiver la réflexion voir Qwen3.5.Les modèles Qwen3.5 Small sont désactivés par défaut. Voir aussi guide LM Studio pour activer le commutateur Think.
35B-A3B27B122B-A10B397B-A17BAffiner Qwen3.50.8B • 2B • 4B • 9B
⚙️ Guide d'utilisation
Tableau : Exigences matérielles pour l'inférence (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée)
Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (VRAM + RAM système) dépasse la taille du fichier de modèle quantifié que vous téléchargez. Sinon, llama.cpp peut toujours fonctionner via déchargement SSD/HDD, mais l'inférence sera plus lente.
Entre 27B et 35B-A3B, utilisez 27B si vous voulez des résultats légèrement plus précis et que vous ne pouvez pas l'adapter à votre appareil. Optez pour 35B-A3B si vous souhaitez une inférence beaucoup plus rapide.
Paramètres recommandés
Fenêtre de contexte maximale :
262,144(peut être étendue à 1M via YaRN)presence_penalty = 0.0 à 2.0par défaut c'est désactivé, mais pour réduire les répétitions, vous pouvez l'utiliser, cependant l'utilisation d'une valeur plus élevée peut entraîner légère diminution des performancesLongueur de sortie adéquate:
32,768tokens pour la plupart des requêtes
Si vous obtenez du charabia, la longueur de votre contexte pourrait être trop basse. Ou essayez d'utiliser --cache-type-k bf16 --cache-type-v bf16 ce qui pourrait aider.
Comme Qwen3.5 est un raisonnement hybride, les modes thinking et non-thinking ont des paramètres différents :
Mode Thinking :
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repeat penalty = désactivée ou 1.0
repeat penalty = désactivée ou 1.0
Mode Thinking pour tâches générales :
Mode Thinking pour tâches de codage précises :
Paramètres du mode Instruct (non-thinking) :
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repeat penalty = désactivée ou 1.0
repeat penalty = désactivée ou 1.0
Pour désactiver la réflexion / le raisonnement, utilisez --chat-template-kwargs '{"enable_thinking":false}'
Si vous êtes sur Windows Powershell, utilisez : --chat-template-kwargs "{\"enable_thinking\":false}"
Utilisez 'true' et 'false' de manière interchangeable.
Pour Qwen3.5 0.8B, 2B, 4B et 9B, le raisonnement est désactivé par défaut. Pour l'activer, utilisez : --chat-template-kwargs '{"enable_thinking":true}'
Instruct (non-thinking) pour tâches générales :
Instruct (non-thinking) pour tâches de raisonnement :
Tutoriels d'inférence Qwen3.5 :
Parce que Qwen3.5 existe en de nombreuses tailles différentes, nous utiliserons Dynamic 4-bit MXFP4_MOE variantes GGUF pour toutes les charges de travail d'inférence. Cliquez ci-dessous pour naviguer vers les instructions désignées du modèle :
Qwen3.5-35B-A3B27B122B-A10B397B-A17BPetit (0.8B • 2B • 4B • 9B)LM Studio
Téléversements GGUF Unsloth :
presence_penalty = 0.0 à 2.0 par défaut c'est désactivé, mais pour réduire les répétitions, vous pouvez l'utiliser, cependant l'utilisation d'une valeur plus élevée peut entraîner légère diminution des performances.
Actuellement aucun GGUF Qwen3.5 ne fonctionne dans Ollama en raison de fichiers vision mmproj séparés. Utilisez des backends compatibles llama.cpp.
🦙 Guides Llama.cpp
Qwen3.5-35B-A3B
Pour ce guide, nous utiliserons Dynamic 4-bit qui fonctionne très bien sur un appareil Mac / 24 Go de RAM pour une inférence rapide. Comme le modèle fait environ 72 Go en précision F16 complète, nous n'aurons pas trop à nous soucier des performances. GGUF : Qwen3.5-35B-A3B-GGUF
Pour ces tutoriels, nous utiliserons llama.cpp pour une inférence locale rapide, surtout si vous avez un CPU.
Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de build ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, configurez -DGGML_CUDA=OFF puis continuez normalement - le support Metal est activé par défaut.
Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.
Suivez l'une des commandes spécifiques ci-dessous, selon votre cas d'utilisation :
Mode Thinking :
Tâches de codage précises (par ex. WebDev) :
Tâches générales :
Mode non-thinking :
Tâches générales :
Tâches de raisonnement :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M ou d'autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d'utiliser au moins la quant dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Ensuite exécutez le modèle en mode conversation :
Qwen3.5 Small (0.8B • 2B • 4B • 9B)
Pour Qwen3.5 0.8B, 2B, 4B et 9B, le raisonnement est désactivé par défaut. Pour l'activer, utilisez : --chat-template-kwargs '{"enable_thinking":true}'
Sur Windows utilisez : --chat-template-kwargs "{\"enable_thinking\":true}"
Pour la série Qwen3.5 Small, comme elles sont très petites, tout ce que vous avez à faire est de changer le nom du modèle dans les scripts pour la variante souhaitée. Pour ce guide spécifique nous utiliserons la variante à 9B paramètres. Pour exécuter toutes les variantes en quasi pleine précision, il vous faudra seulement 12 Go de RAM / VRAM / mémoire unifiée. GGUFs :
Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de build ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou souhaitez simplement une inférence CPU.
Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Ceci est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.
Suivez l'une des commandes spécifiques ci-dessous, selon votre cas d'utilisation :
Pour utiliser une autre variante autre que 9B, vous pouvez remplacer '9B' par : 0.8B, 2B ou 4B etc.
Mode Thinking (désactivé par défaut)
Les modèles Qwen3.5 Small désactivent la réflexion par défaut. Utilisez llama-server pour l'activer.
Tâches générales :
Pour utiliser une autre variante autre que 9B, vous pouvez remplacer '9B' par : 0.8B, 2B ou 4B etc.
Le mode non-thinking est déjà activé par défaut
Tâches générales :
Tâches de raisonnement :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M ou d'autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d'utiliser au moins la quant dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Ensuite exécutez le modèle en mode conversation :
Qwen3.5-27B
Pour ce guide nous utiliserons Dynamic 4-bit qui fonctionne très bien sur un appareil Mac / 18 Go de RAM pour une inférence rapide. GGUF : Qwen3.5-27B-GGUF
Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de build ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou souhaitez simplement une inférence CPU.
Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.
Suivez l'une des commandes spécifiques ci-dessous, selon votre cas d'utilisation :
Mode Thinking :
Tâches de codage précises (par ex. WebDev) :
Tâches générales :
Mode non-thinking :
Tâches générales :
Tâches de raisonnement :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir MXFP4_MOE ou d'autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d'utiliser au moins la quant dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Ensuite exécutez le modèle en mode conversation :
Qwen3.5-122B-A10B
Pour ce guide nous utiliserons Dynamic 4-bit qui fonctionne très bien sur un appareil Mac / 70 Go de RAM pour une inférence rapide. GGUF : Qwen3.5-122B-A10B-GGUF
Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de build ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou souhaitez simplement une inférence CPU.
Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.
Suivez l'une des commandes spécifiques ci-dessous, selon votre cas d'utilisation :
Mode Thinking :
Tâches de codage précises (par ex. WebDev) :
Tâches générales :
Mode non-thinking :
Tâches générales :
Tâches de raisonnement :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir MXFP4_MOE (dynamic 4bit) ou d'autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d'utiliser au moins la quant dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Ensuite exécutez le modèle en mode conversation :
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B est dans la même catégorie de performance que Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2. Le checkpoint complet 397B fait ~807 Go sur disque, mais via les GGUFs 397B d'Unsloth vous pouvez exécuter :
3 bits: tient sur 192 Go de RAM systèmes (par ex., un Mac 192 Go)
4 bits (MXFP4): tient sur 256 Go de RAM. Unsloth 4-bit dynamique UD-Q4_K_XL est ~214 Go sur disque - se charge directement sur un 256 Go M3 Ultra
Fonctionne sur un GPU unique 24 Go + 256 Go de RAM système via déchargement MoE, atteignant 25+ tokens/s
8 bits nécessite ~512 Go RAM/VRAM
Voir benchmarks de quantification 397B sur les performances des GGUFs Unsloth.
Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de build ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou souhaitez simplement une inférence CPU.
Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer dans un emplacement spécifique. N'oubliez pas que le modèle a seulement une longueur de contexte maximale de 256K.
Suivez ceci pour réflexion mode :
Suivez ceci pour non-thinking mode :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir MXFP4_MOE (dynamic 4bit) ou d'autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d'utiliser au moins la quant dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement GPU sur combien de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Retirez-le aussi si vous avez une inférence uniquement CPU.
👾 Guide LM Studio
Pour ce guide, nous utiliserons LM Studio, une interface UI unifiée pour exécuter des LLMs. Le commutateur '💡Thinking' et 'Non-thinking' peut ne pas apparaître par défaut, nous aurons donc besoin de quelques étapes supplémentaires pour le faire fonctionner.
Téléchargez LM Studio pour votre appareil. Ensuite ouvrez Model Search, recherchez 'unsloth/qwen3.5', et téléchargez le GGUF (quant) que vous désirez.

Instructions pour le commutateur Thinking : Après le téléchargement, ouvrez votre Terminal / PowerShell et essayez : lms --help. Ensuite, si LM Studio apparaît normalement avec de nombreuses commandes, exécutez :
Cela obtiendra un fichier yaml qui permet à votre GGUF d'avoir le commutateur '💡Thinking' et 'Non-thinking' qui apparaît. Vous pouvez changer 4b par la quantification désirée que vous souhaitez avoir.

Sinon, vous pouvez aller sur notre page LM Studio et télécharger le fichier yaml spécifique.
Redémarrez LM Studio, puis chargez votre modèle téléchargé (avec le commutateur thinking spécifique que vous avez téléchargé). Vous devriez maintenant voir le commutateur Thinking activé. N'oubliez pas de définir les paramètres corrects.

🦙 Service llama-server & bibliothèque de complétions d'OpenAI
Pour déployer Qwen3.5-397B-A17B en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :
Puis dans un nouveau terminal, après avoir fait pip install openai, faites :
🤔 Comment activer ou désactiver le raisonnement & la réflexion
Pour les commandes ci-dessous, vous pouvez utiliser 'true' et 'false' de manière interchangeable. Pour avoir Le commutateur Think pour LM Studio, lisez notre guide.
Pour désactiver la réflexion / le raisonnement, utilisez dans llama-server :
Si vous êtes sur Windows ou Powershell, utilisez : --chat-template-kwargs "{\"enable_thinking\":false}"
Pour activer la réflexion / le raisonnement, utilisez dans llama-server :
Si vous êtes sur Windows ou Powershell, utilisez : --chat-template-kwargs "{\"enable_thinking\":true}"
Pour Qwen3.5 0.8B, 2B, 4B et 9B, le raisonnement est désactivé par défaut. Pour l'activer, utilisez : --chat-template-kwargs '{"enable_thinking":true}'
Et sur Windows ou Powershell : --chat-template-kwargs "{\"enable_thinking\":true}"
À titre d'exemple pour Qwen3.5-9B pour activer la réflexion (par défaut elle est désactivée) :
Et ensuite en Python :

👨💻 OpenAI Codex & Claude Code
Pour exécuter le modèle via des charges de travail agentiques de codage local, vous pouvez suivre notre guide. Changez simplement le nom du modèle pour la variante 'Qwen3.5' souhaitée et assurez-vous de suivre les paramètres et instructions d'utilisation corrects de Qwen3.5. Utilisez le llama-server que nous venons de configurer à l'instant.
Après avoir suivi les instructions pour Claude Code par exemple vous verrez :

Nous pouvons alors demander par exemple Créer un jeu Python d'échecs :



🔨Appel d'outils avec Qwen3.5
Voir Tool Calling Guide pour plus de détails sur la façon de faire des appels d'outils. Dans un nouveau terminal (si vous utilisez tmux, utilisez CTRL+B+D), nous créons quelques outils comme additionner 2 nombres, exécuter du code Python, exécuter des fonctions Linux et bien plus :
Nous utilisons ensuite les fonctions ci-dessous (copier-coller et exécuter) qui analyseront automatiquement les appels de fonction et appelleront le point de terminaison OpenAI pour n'importe quel modèle :
Après le lancement de Qwen3.5 via llama-server comme dans Qwen3.5 ou voir Tool Calling Guide pour plus de détails, nous pouvons ensuite effectuer des appels d'outils.
📊 Benchmarks
Benchmarks Unsloth GGUF
Nous avons mis à jour Qwen3.5-35B Unsloth Dynamic quants étant SOTA sur presque tous les aspects. Nous avons effectué plus de 150 benchmarks de divergence KL, au total 9 To de GGUFs. Nous avons téléchargé tous les artefacts de recherche. Nous avons également corrigé un appel d'outil modèle de chat bug (affecte tous les téléchargeurs de quantifications)
Tous les GGUFs sont désormais mis à jour avec une quantification améliorée algorithme.
Tous utilisent notre nouvelle donnée imatrix. Voyez quelques améliorations dans le chat, le codage, le long contexte et les cas d'utilisation d'appel d'outils.
Les GGUFs Qwen3.5-35B-A3B sont mis à jour pour utiliser les nouvelles corrections (112B, 27B en cours de conversion, retéléchargez une fois qu'ils sont mis à jour)
99,9% de divergence KL montre SOTA sur la frontière de Pareto pour UD-Q4_K_XL, IQ3_XXS et plus.
Retrait de MXFP4 de toutes les quantifications GGUF : Q2_K_XL, Q3_K_XL et Q4_K_XL, sauf pour le pure MXFP4_MOE.


LIRE NOTRE ANALYSE DÉTAILLÉE DE QWEN3.5 + BENCHMARKS ICI :
Benchmarks GGUF Qwen3.5Benchmarks Qwen3.5-397B-A17B

Benjamin Marie (tiers) a benchmarqué Qwen3.5-397B-A17B en utilisant les GGUFs Unsloth sur un ensemble mixte de 750 invites (LiveCodeBench v6, MMLU Pro, GPQA, Math500), rapportant à la fois précision globale et augmentation d'erreur relative (à quelle fréquence le modèle quantifié fait des erreurs par rapport à l'original).
Résultats clés (précision ; changement vs. l'original ; augmentation d'erreur relative) :
Poids originaux : 81.3%
UD-Q4_K_XL : 80.5% (−0,8 point ; +4,3% d'augmentation d'erreur relative)
UD-Q3_K_XL : 80.7% (−0,6 point ; +3,5% d'augmentation d'erreur relative)
UD-Q4_K_XL et UD-Q3_K_XL restent extrêmement proches de l'original, bien en dessous d'une baisse de précision d'1 point sur cette suite, ce que Ben laisse entendre que vous pouvez réduire fortement l'empreinte mémoire (~500 Go de moins) avec peu ou pas de perte pratique sur les tâches testées.
Comment choisir : Que Q3 obtienne un score légèrement supérieur à Q4 ici est entièrement plausible comme variance normale d'une exécution à l'autre à cette échelle, donc considérez Q3 et Q4 comme une qualité effectivement similaire dans ce benchmark :
Choisissez Q3 si vous voulez la plus petite empreinte / meilleures économies de mémoire
Choisissez Q4 si vous voulez une option légèrement plus conservatrice avec des résultats similaires
Toutes les quantifications listées utilisent notre méthodologie dynamique. Même UD-IQ2_M utilise la même méthodologie dynamique cependant le processus de conversion est différent de UD-Q2-K-XL où K-XL est généralement plus rapide que UD-IQ2_M même s'il est plus grand, c'est pourquoi UD-IQ2_M peut mieux performer que UD-Q2-K-XL.
Benchmarks officiels Qwen
Benchmarks Qwen3.5-35B-A3B, 27B et 122B-A10B

Benchmarks Qwen3.5-4B et 9B

Benchmarks Qwen3.5-397B-A17B

Mis à jour
Ce contenu vous a-t-il été utile ?

