💜Qwen3.5 - Guide pour exécuter en local

Exécutez les nouveaux LLM Qwen3.5, notamment Medium : Qwen3.5-35B-A3B, 27B, 122B-A10B, Small : Qwen3.5-0.8B, 2B, 4B, 9B et 397B-A17B sur votre appareil local !

Qwen3.5 est la nouvelle famille de modèles d’Alibaba, comprenant Qwen3.5-35B-A3B, 27B, 122B-A10B et 397B-A17B ainsi que la nouvelle petite série : Qwen3.5-0.8B, 2B, 4B et 9B. Les LLM multimodaux à raisonnement hybride offrent les meilleures performances pour leur taille. Ils prennent en charge un contexte de 256K dans 201 langues, disposent de modes de réflexion + sansréflexion, et excellent dans les tâches de codage agentique, de vision, de chat et de long contexte. Les modèles 35B et 27B fonctionnent sur un appareil Mac / RAM de 22 Go. Voir tous les GGUF iciarrow-up-right.

circle-check

Tous les envois utilisent Unsloth Dynamic 2.0arrow-up-right pour des performances de quantification SOTA — ainsi, le 4 bits a des couches importantes remontées en 8 ou 16 bits. Merci à Qwen d’avoir donné à Unsloth un accès dès le premier jour. Vous pouvez aussi affiner Qwen3.5 avec Unsloth.

circle-info

Pour activer ou désactiver la réflexion, voir Qwen3.5.Qwen3.5 Les petits modèles sont désactivés par défaut.

Exécuter dans Unsloth Studio35B-A3B27B122B-A10B397B-A17BAffinerQwen3.5 Small

⚙️ Guide d’utilisation

Tableau : exigences matérielles pour l’inférence (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée)

Qwen3.5
3 bits
4 bits
6 bits
8 bits
BF16

3 Go

3,5 Go

5 Go

7,5 Go

9 Go

4,5 Go

5,5 Go

7 Go

10 Go

14 Go

5,5 Go

6,5 Go

9 Go

13 Go

19 Go

14 Go

17 Go

24 Go

30 Go

54 Go

17 Go

22 Go

30 Go

38 Go

70 Go

60 Go

70 Go

106 Go

132 Go

245 Go

180 Go

214 Go

340 Go

512 Go

810 Go

circle-check

Entre 27B et 35B-A3B, utilisez 27B si vous voulez des résultats légèrement plus précis et que cela ne tient pas sur votre appareil. Optez pour 35B-A3B si vous souhaitez une inférence beaucoup plus rapide.

Paramètres recommandés

  • Fenêtre de contexte maximale : 262,144 (peut être étendue à 1M via YaRN)

  • presence_penalty = 0.0 à 2.0 par défaut, c’est désactivé, mais pour réduire les répétitions, vous pouvez utiliser ceci ; cependant, une valeur plus élevée peut entraîner une légère baisse des performances

  • Longueur de sortie adéquate: 32,768 tokens pour la plupart des requêtes

circle-info

Si vous obtenez du charabia, la longueur de votre contexte est peut-être réglée trop bas. Ou essayez d’utiliser --cache-type-k bf16 --cache-type-v bf16 ce qui pourrait aider.

Comme Qwen3.5 est un raisonnement hybride, les modes avec réflexion et sans réflexion ont des paramètres différents :

Mode réflexion :

Tâches générales
Tâches de codage précises (par ex. WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat penalty = désactivée ou 1.0

repeat penalty = désactivée ou 1.0

Mode réflexion pour les tâches générales :

Mode réflexion pour les tâches de codage précises :

Paramètres du mode Instruct (sans réflexion) :

Tâches générales
Tâches de raisonnement

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

repeat penalty = désactivée ou 1.0

repeat penalty = désactivée ou 1.0

circle-exclamation

Instruct (sans réflexion) pour les tâches générales :

Instruct (sans réflexion) pour les tâches de raisonnement :

Tutoriels d’inférence Qwen3.5 :

Comme Qwen3.5 existe en de nombreuses tailles différentes, nous utiliserons Dynamic 4-bit MXFP4_MOE variantes GGUF pour toutes les charges de travail d’inférence. Cliquez ci-dessous pour accéder aux instructions du modèle désigné :

Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall (0.8B • 2B • 4B • 9B)LM Studio

Téléversements Unsloth Dynamic GGUF :

circle-exclamation

🦥 Guide Unsloth Studio

Pour ce tutoriel, nous utiliserons Unsloth Studio, qui est notre nouvelle interface web pour exécuter et entraîner des LLM. Avec Unsloth Studio, vous pouvez exécuter des modèles localement sur Mac, Windowset Linux, et :

1

Installer Unsloth

MacOS, Linux, WSL :

Windows PowerShell :

2

Configurer Unsloth Studio (une seule fois)

La configuration installe automatiquement Node.js (via nvm), compile le frontend, installe toutes les dépendances Python et compile llama.cpp avec la prise en charge de CUDA.

circle-exclamation
circle-info

Utilisateurs de WSL : il vous sera demandé votre sudo mot de passe pour installer les dépendances de compilation (cmake, git, libcurl4-openssl-dev).

3

Lancer Unsloth

MacOS, Linux, WSL et Windows :

Puis ouvrez http://localhost:8888 dans votre navigateur.

4

Rechercher et télécharger Qwen3.5

Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et les paramètres de base. Vous pouvez le passer à tout moment.

Puis allez dans l’onglet Studio Chat et recherchez Qwen3.5 dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.

5

Exécuter Qwen3.5

Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de chat et d’autres paramètres.

Pour plus d’informations, vous pouvez consulter notre guide d’inférence Unsloth Studio.

🦙 Guides Llama.cpp

Qwen3.5-35B-A3B

Pour ce guide, nous utiliserons Dynamic 4-bit, qui fonctionne très bien sur un appareil Mac / RAM de 24 Go pour une inférence rapide. Comme le modèle ne fait qu’environ 72 Go en précision F16 complète, nous n’aurons pas trop à nous soucier des performances. GGUF : Qwen3.5-35B-A3B-GGUFarrow-up-right

Pour ces tutoriels, nous utiliserons llama.cpparrow-up-right pour une inférence locale rapide, surtout si vous avez un CPU.

1

Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d’habitude - la prise en charge de Metal est activée par défaut.

2

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Cela ressemble à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.

Suivez l’une des commandes spécifiques ci-dessous, selon votre cas d’utilisation :

Mode réflexion :

Tâches de codage précises (par ex. WebDev) :

Tâches générales :

Mode sans réflexion :

Tâches générales :

Tâches de raisonnement :

3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au moins une quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET

4

Puis exécutez le modèle en mode conversation :

Qwen3.5 Small (0.8B • 2B • 4B • 9B)

circle-exclamation

Pour la série Qwen3.5 Small, comme elle est très petite, tout ce que vous avez à faire est de changer le nom du modèle dans les scripts par la variante souhaitée. Pour ce guide spécifique, nous utiliserons la variante de 9B paramètres. Pour les exécuter toutes en précision quasi complète, il vous suffira d’un appareil avec 12 Go de RAM / VRAM / mémoire unifiée. GGUF :

1

Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU.

2

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Cela ressemble à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.

Suivez l’une des commandes spécifiques ci-dessous, selon votre cas d’utilisation :

circle-check

Mode réflexion (désactivé par défaut)

triangle-exclamation

Tâches générales :

circle-check

Le mode sans réflexion est déjà activé par défaut

Tâches générales :

Tâches de raisonnement :

3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au moins une quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET

4

Puis exécutez le modèle en mode conversation :

Qwen3.5-27B

Pour ce guide, nous utiliserons Dynamic 4-bit, qui fonctionne très bien sur un appareil Mac / RAM de 18 Go pour une inférence rapide. GGUF : Qwen3.5-27B-GGUFarrow-up-right

1

Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU.

2

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Cela ressemble à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.

Suivez l’une des commandes spécifiques ci-dessous, selon votre cas d’utilisation :

Mode réflexion :

Tâches de codage précises (par ex. WebDev) :

Tâches générales :

Mode sans réflexion :

Tâches générales :

Tâches de raisonnement :

3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir MXFP4_MOE ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au moins une quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET

4

Puis exécutez le modèle en mode conversation :

Qwen3.5-122B-A10B

Pour ce guide, nous utiliserons Dynamic 4-bit, qui fonctionne très bien sur un appareil Mac / RAM de 70 Go pour une inférence rapide. GGUF : Qwen3.5-122B-A10B-GGUFarrow-up-right

1

Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU.

2

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Cela ressemble à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.

Suivez l’une des commandes spécifiques ci-dessous, selon votre cas d’utilisation :

Mode réflexion :

Tâches de codage précises (par ex. WebDev) :

Tâches générales :

Mode sans réflexion :

Tâches générales :

Tâches de raisonnement :

3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir MXFP4_MOE (4 bits dynamique) ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au moins une quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET

4

Puis exécutez le modèle en mode conversation :

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B se situe dans la même catégorie de performances que Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2. Le checkpoint complet 397B fait environ 807 Go sur disque, mais via les GGUF 397B d’Unslotharrow-up-right vous pouvez exécuter :

  • 3 bits: tient sur 192 Go de RAM des systèmes (par ex., un Mac de 192 Go)

  • 4 bits (MXFP4): tient sur 256 Go de RAM. Unsloth 4 bits dynamique UD-Q4_K_XL est ~214 Go sur disque - se charge directement sur un M3 Ultra 256 Go

  • Fonctionne sur un seul GPU de 24 Go + 256 Go de RAM système via déchargement MoE, atteignant 25+ tokens/s

  • 8 bits nécessite ~512 Go de RAM/VRAM

circle-info

Voir les benchmarks de quantification 397B pour voir comment les GGUF d’Unsloth performent.

1

Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU.

2

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Cela ressemble à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer dans un emplacement spécifique. Rappelez-vous que le modèle a une longueur de contexte maximale de seulement 256K.

Suivez ceci pour le de réflexion mode :

Suivez ceci pour le sans réflexion mode :

3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir MXFP4_MOE (4 bits dynamique) ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au moins une quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET

4

Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur du contexte, --n-gpu-layers 2 pour le déchargement GPU sur le nombre de couches. Essayez d’ajuster ce paramètre si votre GPU manque de mémoire. Supprimez-le également si vous n’utilisez que l’inférence CPU.

👾 Guide LM Studio

Pour ce guide, nous utiliserons LM Studioarrow-up-right, une interface utilisateur unifiée pour exécuter des LLM. Le basculement '💡Thinking' et 'Non-thinking' peut ne pas apparaître par défaut, nous aurons donc besoin de quelques étapes supplémentaires pour le faire fonctionner.

1

Téléchargez LM Studioarrow-up-right pour votre appareil. Ensuite, ouvrez Model Search, recherchez 'unsloth/qwen3.5' et téléchargez le GGUF (quant) de votre choix.

2

Instructions pour le basculement Thinking : Après le téléchargement, ouvrez votre Terminal / PowerShell et essayez : lms --help. Puis, si LM Studio s’affiche normalement avec de nombreuses commandes, exécutez :

Cela récupérera un fichier yaml qui permet à votre GGUF d’afficher le basculeur '💡Thinking' et 'Non-thinking'. Vous pouvez changer 4b en la quantification souhaitée.

Sinon, vous pouvez aller sur notre page LM Studioarrow-up-right et télécharger le fichier yaml spécifique.

3

Redémarrez LM Studio, puis chargez votre modèle téléchargé (avec le basculeur de réflexion spécifique que vous avez téléchargé). Vous devriez maintenant voir le basculeur Thinking activé. N’oubliez pas de définir les paramètres corrects.

🦙 Llama-server : service & bibliothèque de complétion d’OpenAI

Pour déployer Qwen3.5-397B-A17B en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle avec :

Puis dans un nouveau terminal, après avoir fait pip install openai, faites :

🤔 Comment activer ou désactiver le raisonnement et la réflexion

Pour les commandes ci-dessous, vous pouvez utiliser 'true' et 'false' de manière interchangeable.

Unsloth Studio dispose automatiquement d’un basculeur 'Think' pour les modèles avec réflexion.

Pour avoir le basculeur Think dans LM Studio, lisez notre guide.

Unsloth Studio a le basculeur Think par défaut
circle-info

Pour désactiver réflexion / raisonnement, utilisez dans llama-server :

Si vous êtes sur Windows ou Powershell, utilisez : --chat-template-kwargs "{\"enable_thinking\":false}"

circle-info

Pour activer réflexion / raisonnement, utilisez dans llama-server :

Si vous êtes sur Windows ou Powershell, utilisez : --chat-template-kwargs "{\"enable_thinking\":true}"

triangle-exclamation

À titre d'exemple pour Qwen3.5-9B afin d'activer la réflexion (désactivée par défaut) :

Et ensuite en Python :

👨‍💻 OpenAI Codex et Claude Code

Pour exécuter le modèle via des charges de travail agentiques de codage local, vous pouvez suivre notre guide. Changez simplement le nom du modèle pour la variante 'Qwen3.5' souhaitée et assurez-vous de suivre les paramètres et instructions d'utilisation corrects de Qwen3.5. Utilisez le llama-server que nous venons de configurer à l'instant.

Après avoir suivi les instructions pour Claude Code par exemple, vous verrez :

Nous pouvons alors demander par exemple Créer un jeu d'échecs en Python :

🔨Appel d'outils avec Qwen3.5

Voir Tool Calling Guide pour plus de détails sur la manière d'effectuer des appels d'outils. Dans un nouveau terminal (si vous utilisez tmux, utilisez CTRL+B+D), nous créons quelques outils comme l'addition de 2 nombres, l'exécution de code Python, l'exécution de fonctions Linux et bien plus encore :

Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonction et appelleront le point de terminaison OpenAI pour n'importe quel modèle :

Après avoir lancé Qwen3.5 via llama-server comme dans Qwen3.5 ou voir Tool Calling Guide pour plus de détails, nous pouvons alors effectuer quelques appels d'outils.

📊 Benchmarks

Benchmarks Unsloth GGUF

Nous avons mis à jour les quantifications dynamiques Unsloth de Qwen3.5-35B étant SOTA sur presque tous les nombres de bits. Nous avons effectué plus de 150 benchmarks de divergence KL, soit au total 9 To de GGUF. Nous avons téléversé tous les artefacts de recherche. Nous avons également corrigé un appel d’outils modèle de chat bug (affecte tous les téléverseurs de quantification)

  • Tous les GGUF sont désormais mis à jour avec un algorithme de quantification amélioré .

  • Tous utilisent nos nouvelles données imatrix. Découvrez quelques améliorations dans les cas d’usage de chat, de codage, de long contexte et d’appel d’outils.

  • Les GGUF Qwen3.5-35B-A3B sont mis à jour pour utiliser les nouveaux correctifs (112B, 27B sont encore en conversion, retéléchargez une fois qu'ils sont mis à jour)

  • 99,9 % de divergence KL montre l'état de l'art sur la frontière de Pareto pour UD-Q4_K_XL, IQ3_XXS et plus encore.

  • Abandon de MXFP4 de toutes les quantifications GGUF : Q2_K_XL, Q3_K_XL et Q4_K_XL, sauf pour pure MXFP4_MOE.

35B-A3B - benchmarks KLD (plus bas est meilleur)
122B-A10B - benchmarks KLD (plus bas est meilleur)

LISEZ ICI NOTRE ANALYSE DÉTAILLÉE DE QWEN3.5 + BENCHMARKS :

chart-fftBenchmarks GGUF Qwen3.5chevron-right

Benchmarks Qwen3.5-397B-A17B

Benjamin Marie (tiers) a évaluéarrow-up-right Qwen3.5-397B-A17B en utilisant les GGUF Unsloth sur une suite mixte de 750 prompts (LiveCodeBench v6, MMLU Pro, GPQA, Math500), en rapportant à la fois précision globale et augmentation relative de l'erreur (à quel point le modèle quantifié fait plus souvent des erreurs par rapport à l'original).

Résultats clés (précision ; changement par rapport à l'original ; augmentation relative de l'erreur) :

  • Poids d'origine : 81.3%

  • UD-Q4_K_XL : 80.5% (−0,8 point ; +4,3 % d'augmentation relative de l'erreur)

  • UD-Q3_K_XL : 80.7% (−0,6 point ; +3,5 % d'augmentation relative de l'erreur)

UD-Q4_K_XL et UD-Q3_K_XL reste extrêmement proche de l'original, bien en dessous d'une baisse de précision de 1 point sur cette suite, ce que Ben laisse entendre que vous pouvez réduire fortement l'empreinte mémoire (~500 Go de moins) avec peu ou pas de perte pratique sur les tâches testées.

Comment choisir : Le fait que Q3 obtienne ici un score légèrement supérieur à Q4 est tout à fait plausible comme une variation normale d'une exécution à l'autre à cette échelle, alors considérez Q3 et Q4 comme de qualité effectivement similaire dans ce benchmark :

  • Choisissez Q3 si vous voulez la plus petite empreinte / les meilleures économies de mémoire

  • Choisissez Q4 si vous voulez une option légèrement plus conservatrice avec des similaires résultats

Toutes les quantifications listées utilisent notre méthodologie dynamique. Même UD-IQ2_M utilise la même méthodologie dynamique, cependant le processus de conversion est différent de UD-Q2-K-XL où K-XL est généralement plus rapide que UD-IQ2_M même s'il est plus gros, c'est pourquoi UD-IQ2_M peut être plus performant que UD-Q2-K-XL.

Benchmarks officiels Qwen

Benchmarks Qwen3.5-35B-A3B, 27B et 122B-A10B

Benchmarks Qwen3.5-4B et 9B

Benchmarks Qwen3.5-397B-A17B

Mis à jour

Ce contenu vous a-t-il été utile ?