💜Qwen3.5 - Guide pour exécution locale

Exécutez les nouveaux LLM Qwen3.5 y compris Medium : Qwen3.5-35B-A3B, 27B, 122B-A10B, Small : Qwen3.5-0.8B, 2B, 4B, 9B et 397B-A17B sur votre appareil local !

Qwen3.5 est la nouvelle famille de modèles d’Alibaba, incluant Qwen3.5-35B-A3B, 27B, 122B-A10B et 397B-A17B et la nouvelle Petite série : Qwen3.5-0.8B, 2B, 4B et 9B. Les LLM hybrides de raisonnement multimodal offrent les meilleures performances pour leur taille. Ils prennent en charge contexte 256K dans 201 langues, ont réflexion + non-réflexion, et excellent en codage agentique, vision, chat et tâches à long contexte. Les modèles 35B et 27B fonctionnent sur un appareil Mac / RAM de 22 Go. Voir tous GGUFs ici.

Mise à jour du 5 mars : Retéléchargez Qwen3.5-35B, 27B, 122B et 397B.

Tous les GGUFs sont maintenant mis à jour avec une quantification améliorée algorithme.
Tous utilisent notre nouvelle donnée imatrix. Voyez des améliorations dans les cas d’usage de chat, codage, long contexte et appel d’outils.
L’appel d’outils amélioré suite à nos corrections de modèle de chat. La correction est universelle et s’applique à tout format Qwen3.5 et tout uploader.
Consultez les nouveaux benchmarks GGUF pour les résultats de performance Unsloth + notre investigation MXFP4.
Nous retirons les couches MXFP4 de 3 GGUFs Qwen3.5 : Q2_K_XL, Q3_K_XL et Q4_K_XL.

Toutes les uploads utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - ainsi le 4 bits a des couches importantes rehaussées à 8 ou 16 bits. Merci à Qwen pour avoir fourni à Unsloth un accès day zero. Vous pouvez aussi affiner Qwen3.5 avec Unsloth.

Pour activer ou désactiver la réflexion voir Qwen3.5.Les modèles Qwen3.5 Small sont désactivés par défaut. Voir aussi guide LM Studio pour activer le bascule Pensez.

35B-A3B 27B 122B-A10B 397B-A17B Affiner Qwen3.5 0.8B • 2B • 4B • 9B

⚙️ Guide d’utilisation

Tableau : Exigences matérielles pour l’inférence (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée)

Qwen3.5

3 bits

4 bits

6 bits

8 bits

BF16

0.8B + 2B

3 Go

3.5 Go

5 Go

7,5 Go

9 Go

4,5 Go

5,5 Go

7 Go

10 Go

14 Go

5,5 Go

6,5 Go

9 Go

13 Go

19 Go

27B

14 Go

17 Go

24 Go

30 Go

54 Go

35B-A3B

17 Go

22 Go

30 Go

38 Go

70 Go

122B-A10B

60 Go

70 Go

106 Go

132 Go

245 Go

397B-A17B

180 Go

214 Go

340 Go

512 Go

810 Go

Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (VRAM + RAM système) dépasse la taille du fichier de modèle quantifié que vous téléchargez. Sinon, llama.cpp peut encore fonctionner via déchargement sur SSD/HDD, mais l’inférence sera plus lente.

Entre 27B et 35B-A3B, utilisez 27B si vous voulez des résultats légèrement plus précis et ne pouvez pas tenir sur votre appareil. Choisissez 35B-A3B si vous voulez une inférence beaucoup plus rapide.

Paramètres recommandés

Fenêtre de contexte maximale : 262,144 (peut être étendue à 1M via YaRN)
presence_penalty = 0.0 à 2.0 par défaut ceci est désactivé, mais pour réduire les répétitions, vous pouvez utiliser ceci, cependant utiliser une valeur plus élevée peut entraîner légère diminution des performances
Longueur de sortie adéquate: 32,768 tokens pour la plupart des requêtes

Si vous obtenez du charabia, la longueur de votre contexte pourrait être trop faible. Ou essayez d’utiliser --cache-type-k bf16 --cache-type-v bf16 ce qui pourrait aider.

Comme Qwen3.5 est à raisonnement hybride, les modes réflexion et non-réflexion ont des paramètres différents :

Mode réflexion :

Tâches générales

Tâches de codage précises (par ex. WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_k = 20

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat penalty = désactivée ou 1.0

Mode réflexion pour tâches générales :

temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

Mode réflexion pour tâches de codage précises :

temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

Paramètres du mode Instruct (non-réflexion) :

Tâches générales

Tâches de raisonnement

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

min_p = 0.0

presence_penalty = 1.5

repeat penalty = désactivée ou 1.0

Pour désactiver la réflexion / le raisonnement, utilisez --chat-template-kwargs '{"enable_thinking":false}'

Si vous êtes sur Windows Powershell, utilisez : --chat-template-kwargs "{\"enable_thinking\":false}"

Utilisez 'true' et 'false' de façon interchangeable.

Pour Qwen3.5 0.8B, 2B, 4B et 9B, le raisonnement est désactivé par défaut. Pour l’activer, utilisez : --chat-template-kwargs '{"enable_thinking":true}'

Instruct (non-réflexion) pour tâches générales :

temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

Instruct (non-réflexion) pour tâches de raisonnement :

temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

Tutoriels d’inférence Qwen3.5 :

Parce que Qwen3.5 existe en plusieurs tailles, nous utiliserons Dynamic 4-bit MXFP4_MOE variantes GGUF pour toutes les charges de travail d’inférence. Cliquez ci-dessous pour naviguer vers les instructions désignées du modèle :

Qwen3.5-35B-A3B 27B 122B-A10B 397B-A17B Petite (0.8B • 2B • 4B • 9B)LM Studio

Uploads GGUF Unsloth :

Qwen3.5-35B-A3B

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

presence_penalty = 0.0 à 2.0 par défaut ceci est désactivé, mais pour réduire les répétitions, vous pouvez utiliser ceci, cependant utiliser une valeur plus élevée peut entraîner légère diminution des performances.

Actuellement aucun GGUF Qwen3.5 ne fonctionne dans Ollama en raison de fichiers vision mmproj séparés. Utilisez des backends compatibles llama.cpp.

🦙 Guides Llama.cpp

Qwen3.5-35B-A3B

Pour ce guide nous utiliserons Dynamic 4-bit qui fonctionne très bien sur un appareil Mac / 24 Go RAM pour une inférence rapide. Parce que le modèle fait seulement environ 72 Go en pleine précision F16, nous n’aurons pas trop à nous soucier des performances. GGUF : Qwen3.5-35B-A3B-GGUF

Pour ces tutoriels, nous utiliserons llama.cpp pour une inférence locale rapide, surtout si vous avez un CPU.

Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous voulez juste l’inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d’habitude - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Ceci est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer à un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.

Suivez une des commandes spécifiques ci-dessous, selon votre cas d’usage :

Mode réflexion :

Tâches de codage précises (par ex. WebDev) :

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Tâches générales :

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Mode non-réflexion :

Tâches générales :

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Tâches de raisonnement :

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au minimum la quant dynamique 2-bit UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voyez : Hugging Face Hub, débogage XET

hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2bit

Ensuite lancez le modèle en mode conversation :

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-35B-A3B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5 Small (0.8B • 2B • 4B • 9B)

Pour Qwen3.5 0.8B, 2B, 4B et 9B, le raisonnement est désactivé par défaut. Pour l’activer, utilisez : --chat-template-kwargs '{"enable_thinking":true}'

Sur Windows utilisez : --chat-template-kwargs "{\"enable_thinking\":true}"

Pour la série Qwen3.5 Small, comme ils sont si petits, tout ce que vous devez faire est de changer le nom du modèle dans les scripts pour la variante désirée. Pour ce guide spécifique nous utiliserons la variante à 9B paramètres. Pour les exécuter tous en quasi pleine précision, il vous faudra juste 12 Go de RAM / VRAM / mémoire unifiée. GGUFs :

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Ceci est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer à un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.

Suivez une des commandes spécifiques ci-dessous, selon votre cas d’usage :

Pour utiliser une autre variante que 9B, vous pouvez changer le '9B' en : 0.8B, 2B ou 4B etc.

Mode réflexion (désactivé par défaut)

Les modèles Qwen3.5 Small désactivent la réflexion par défaut. Utilisez llama-server pour l’activer.

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

Tâches générales :

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

Pour utiliser une autre variante que 9B, vous pouvez changer le '9B' en : 0.8B, 2B ou 4B etc.

Le mode non-réflexion est déjà activé par défaut

Tâches générales :

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00

Tâches de raisonnement :

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

hf download unsloth/Qwen3.5-9B-GGUF \
    --local-dir unsloth/Qwen3.5-9B-GGUF \
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2bit

Ensuite lancez le modèle en mode conversation :

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-9B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5-27B

Pour ce guide nous utiliserons Dynamic 4-bit qui fonctionne très bien sur un appareil Mac / 18 Go RAM pour une inférence rapide. GGUF : Qwen3.5-27B-GGUF

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Suivez une des commandes spécifiques ci-dessous, selon votre cas d’usage :

Mode réflexion :

Tâches de codage précises (par ex. WebDev) :

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Tâches générales :

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Mode non-réflexion :

Tâches générales :

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Tâches de raisonnement :

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir MXFP4_MOE ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au minimum la quant dynamique 2-bit UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voyez : Hugging Face Hub, débogage XET

hf download unsloth/Qwen3.5-27B-GGUF \
    --local-dir unsloth/Qwen3.5-27B-GGUF \
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2bit

Ensuite lancez le modèle en mode conversation :

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-27B-GGUF/Qwen3.5-27B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-27B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5-122B-A10B

Pour ce guide nous utiliserons Dynamic 4-bit qui fonctionne très bien sur un appareil Mac / 70 Go RAM pour une inférence rapide. GGUF : Qwen3.5-122B-A10B-GGUF

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Suivez une des commandes spécifiques ci-dessous, selon votre cas d’usage :

Mode réflexion :

Tâches de codage précises (par ex. WebDev) :

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Tâches générales :

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Mode non-réflexion :

Tâches générales :

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Tâches de raisonnement :

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir MXFP4_MOE (dynamic 4bit) ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au minimum la quant dynamique 2-bit UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voyez : Hugging Face Hub, débogage XET

hf download unsloth/Qwen3.5-122B-A10B-GGUF \
    --local-dir unsloth/Qwen3.5-122B-A10B-GGUF \
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2bit

Ensuite lancez le modèle en mode conversation :

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-122B-A10B-GGUF/UD-Q4_K_XL/Qwen3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf \
    --mmproj unsloth/Qwen3.5-122B-A10B-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B se situe dans la même catégorie de performance que Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2. Le checkpoint complet 397B occupe ~807 Go sur le disque, mais via les GGUFs 397B d’Unsloth vous pouvez exécuter :

3 bits: tient sur 192 Go de RAM systèmes (par ex., un Mac 192 Go)
4 bits (MXFP4): tient sur 256 Go de RAM. Unsloth 4-bit dynamique UD-Q4_K_XL est ~214 Go sur le disque - se charge directement sur un 256 Go M3 Ultra
Fonctionne sur un GPU unique 24 Go + 256 Go RAM système via déchargement MoE, atteignant 25+ tokens/s
8 bits nécessite ~512 Go RAM/VRAM

Voir benchmarks de quantification 397B sur la façon dont les GGUFs Unsloth performent.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Ceci est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. Rappelez-vous que le modèle n’a qu’une longueur de contexte maximale de 256K.

Suivez ceci pour réflexion mode :

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Suivez ceci pour non-réflexion mode :

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

hf download unsloth/Qwen3.5-397B-A17B-GGUF \
    --local-dir unsloth/Qwen3.5-397B-A17B-GGUF \
    --include "*UD-Q4_K_XL" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2bit

Vous pouvez éditer --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur du contexte, --n-gpu-layers 2 pour le déchargement GPU sur combien de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le aussi si vous avez seulement l’inférence CPU.

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-397B-A17B-GGUF/UD-Q4_K_XL/Qwen3.5-397B-A17B-UD-Q4_K_XL-00001-of-00006.gguf \
    --mmproj unsloth/Qwen3.5-397B-A17B-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

👾 Guide LM Studio

Pour ce guide, nous utiliserons LM Studio, une interface UI unifiée pour exécuter des LLMs. Le bascule '💡Thinking' et 'Non-thinking' peut ne pas apparaître par défaut donc nous aurons besoin d’étapes supplémentaires pour le faire fonctionner.

Téléchargez LM Studio pour votre appareil. Puis ouvrez Model Search, recherchez 'unsloth/qwen3.5', et téléchargez le GGUF (quant) que vous désirez.

Instructions pour le bascule Thinking : Après le téléchargement, ouvrez votre Terminal / PowerShell et essayez : lms --help. Ensuite si LM Studio apparaît normalement avec de nombreuses commandes, exécutez :

lms get unsloth/qwen3.5-4b

Cela obtiendra un fichier yaml qui permet à votre GGUF d’avoir le bascule '💡Thinking' et 'Non-thinking'. Vous pouvez changer 4b en la quantification désirée que vous souhaitez avoir.

Sinon, vous pouvez aller sur notre page LM Studio et télécharger le fichier yaml spécifique.

Redémarrez LM Studio, puis chargez votre modèle téléchargé (avec le bascule thinking spécifique que vous avez téléchargé). Vous devriez maintenant voir le bascule Thinking activé. N’oubliez pas de définir les paramètres corrects.

🦙 Service Llama-server & la bibliothèque de complétions d’OpenAI

Pour déployer Qwen3.5-397B-A17B en production, nous utilisons llama-server Dans un nouveau terminal dites via tmux, déployez le modèle via :

./llama.cpp/llama-server \
--model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-35B-A3B-GGUF/mmproj-F16.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001

Puis dans un nouveau terminal, après avoir fait pip install openai, faites :

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.5-397B-A17B",
    messages = [{"role": "user", "content": "Create a Snake game."},],
)
print(completion.choices[0].message.content)

🤔 Comment activer ou désactiver le raisonnement et la réflexion

Pour les commandes ci-dessous, vous pouvez utiliser 'true' et 'false ' de façon interchangeable. Pour avoir Le bascule Think pour LM Studio, lisez notre guide.

Pour désactiver la réflexion / le raisonnement, utilisez dans llama-server :

    --chat-template-kwargs '{"enable_thinking":false}'

Si vous êtes sur Windows ou Powershell, utilisez : --chat-template-kwargs "{\"enable_thinking\":false}"

Pour activer la réflexion / le raisonnement, utilisez dans llama-server :

    --chat-template-kwargs '{"enable_thinking":true}'

Si vous êtes sur Windows ou Powershell, utilisez : --chat-template-kwargs "{\"enable_thinking\":true}"

Pour Qwen3.5 0.8B, 2B, 4B et 9B, le raisonnement est désactivé par défaut. Pour l’activer, utilisez : --chat-template-kwargs '{"enable_thinking":true}'

Et sur Windows ou Powershell : --chat-template-kwargs "{\"enable_thinking\":true}"

À titre d’exemple pour Qwen3.5-9B pour activer la réflexion (par défaut elle est désactivée) :

./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-BF16.gguf \
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

Et ensuite en Python :

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.5-9B-GGUF",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)
print(completion.choices[0].message.reasoning_content)

👨‍💻 OpenAI Codex & Claude Code

Pour exécuter le modèle via des charges de travail agentiques locales de codage, vous pouvez suivre notre guide. Il suffit de changer le nom du modèle en votre variante 'Qwen3.5' désirée et de vous assurer de suivre les paramètres et instructions d’utilisation corrects de Qwen3.5. Utilisez le llama-server que nous venons de configurer à l’instant.

Claude Code

OpenAI Codex

Après avoir suivi les instructions pour Claude Code par exemple vous verrez :

Nous pouvons alors demander par exemple Créez un jeu Python pour les échecs :

🔨Appel d’outils avec Qwen3.5

Voir Tool Calling Guide pour plus de détails sur comment faire des appels d’outils. Dans un nouveau terminal (si vous utilisez tmux, utilisez CTRL+B+D), nous créons quelques outils comme additionner 2 nombres, exécuter du code Python, exécuter des fonctions Linux et bien plus :

import json, subprocess, random
from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
def write_a_story() -> str:
    return random.choice([
        "Il y a longtemps dans une galaxie lointaine, très lointaine...",
        "Il y avait 2 amis qui adoraient les paresseux et le code...",
        "Le monde finissait parce que chaque paresseux avait évolué pour avoir une intelligence surhumaine...",
        "À l’insu d’un ami, l’autre a accidentellement codé un programme pour faire évoluer les paresseux...",
    ])
def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        msg = "Impossible d’exécuter les commandes 'rm, sudo, dd, chmod' car elles sont dangereuses"
        print(msg); return msg
    print(f"Exécution de la commande terminal `{command}`")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
    except subprocess.CalledProcessError as e:
        return f"Échec de la commande : {e.stderr}"
def python(code: str) -> str:
    data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
}
tools = [
    {
        "type": "function",
        "function": {
            "name": "add_number",
            "description": "Ajouter deux nombres.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Le premier nombre.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Le deuxième nombre.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "multiply_number",
            "description": "Multiplier deux nombres.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Le premier nombre.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Le deuxième nombre.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "substract_number",
            "description": "Soustraire deux nombres.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Le premier nombre.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Le deuxième nombre.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "write_a_story",
            "description": "Écrit une histoire aléatoire.",
            "parameters": {
                "type": "object",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "terminal",
            "description": "Effectuer des opérations depuis le terminal.",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {
                        "type": "string",
                        "description": "La commande que vous souhaitez lancer, ex. `ls`, `rm`, ...",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "python",
            "description": "Appeler un interpréteur Python avec du code Python qui sera exécuté.",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "Le code Python à exécuter",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

Nous utilisons ensuite les fonctions ci-dessous (copier-coller et exécuter) qui analyseront automatiquement les appels de fonction et appelleront le point de terminaison OpenAI pour tout modèle :

from openai import OpenAI
def unsloth_inference(
    messages,
    temperature = 0.6,
    top_p = 0.95,
    top_k = 20,
    min_p = 0.00,
    repetition_penalty = 1.0,
):
    messages = messages.copy()
    openai_client = OpenAI(
        base_url = "http://127.0.0.1:8001/v1",
        api_key = "sk-no-key-required",
    )
    model_name = next(iter(openai_client.models.list())).id
    print(f"Using model = {model_name}")
    has_tool_calls = True
    original_messages_len = len(messages)
    while has_tool_calls:
        print(f"Current messages = {messages}")
        response = openai_client.chat.completions.create(
            model = model_name,
            messages = messages,
            temperature = temperature,
            top_p = top_p,
            tools = tools if tools else None,
            tool_choice = "auto" if tools else None,
            extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
        )
        tool_calls = response.choices[0].message.tool_calls or []
        content = response.choices[0].message.content or ""
        tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
        messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
        for tool_call in tool_calls:
            fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
            out = MAP_FN[fx](**json.loads(args))
            messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
        else:
            has_tool_calls = False
    return messages

Après le lancement de Qwen3.5 via llama-server comme dans Qwen3.5 ou voir Tool Calling Guide pour plus de détails, nous pouvons ensuite effectuer des appels d'outils.

📊 Benchmarks

Benchmarks Unsloth GGUF

Nous avons mis à jour Qwen3.5-35B Unsloth Dynamic quants étant SOTA sur presque tous les aspects. Nous avons réalisé plus de 150 benchmarks de divergence KL, au total 9 To de GGUFs. Nous avons téléchargé tous les artefacts de recherche. Nous avons également corrigé un appel d'outil modèle de chat bogue (affecte tous les uploaders de quantification)

Tous les GGUFs sont maintenant mis à jour avec une quantification améliorée algorithme.
Tous utilisent notre nouvelle donnée imatrix. Voyez des améliorations dans les cas d’usage de chat, codage, long contexte et appel d’outils.
Les GGUFs Qwen3.5-35B-A3B sont mis à jour pour utiliser les nouvelles corrections (112B, 27B en cours de conversion, retéléchargez une fois qu'ils sont mis à jour)
99,9% de divergence KL montre SOTA sur le front de Pareto pour UD-Q4_K_XL, IQ3_XXS et plus.
Retrait de MXFP4 de toutes les quantifications GGUF : Q2_K_XL, Q3_K_XL et Q4_K_XL, sauf pour le pur MXFP4_MOE.

LIRE NOTRE ANALYSE DÉTAILLÉE DE QWEN3.5 + BENCHMARKS ICI :

Benchmarks GGUF Qwen3.5

Benchmarks Qwen3.5-397B-A17B

Benjamin Marie (tiers) a évalué Qwen3.5-397B-A17B en utilisant les Unsloth GGUFs sur un ensemble mixte de 750 prompts (LiveCodeBench v6, MMLU Pro, GPQA, Math500), rapportant à la fois précision globale et augmentation relative d'erreur (à quelle fréquence le modèle quantifié fait des erreurs par rapport à l'original).

Résultats clés (précision ; changement vs. l'original ; augmentation relative d'erreur) :

Poids originaux : 81.3%
UD-Q4_K_XL : 80.5% (−0,8 point ; +4,3 % d'augmentation relative d'erreur)
UD-Q3_K_XL : 80.7% (−0,6 point ; +3,5 % d'augmentation relative d'erreur)

UD-Q4_K_XL et UD-Q3_K_XL restent extrêmement proches de l'original, bien en dessous d'une baisse d'1 point de précision sur cette suite, ce qui laisse entendre par Ben que vous pouvez réduire fortement l'empreinte mémoire (~500 Go de moins) avec peu ou pas de perte pratique sur les tâches testées.

Comment choisir : Que Q3 obtienne un score légèrement supérieur à Q4 ici est tout à fait plausible en tant que variance normale d'exécution à cette échelle, donc considérez Q3 et Q4 comme des qualités effectivement similaires dans ce benchmark :

Choisissez Q3 si vous voulez le plus petit empreinte / meilleures économies de mémoire
Choisissez Q4 si vous voulez une option légèrement plus conservative avec des résultats similaires

Toutes les quantifications listées utilisent notre méthodologie dynamique. Même UD-IQ2_M utilise la même méthodologie dynamique cependant le processus de conversion est différent de UD-Q2-K-XL où K-XL est généralement plus rapide que UD-IQ2_M même s'il est plus grand, c'est pourquoi UD-IQ2_M peut mieux performer que UD-Q2-K-XL.

Benchmarks officiels de Qwen

Benchmarks Qwen3.5-35B-A3B, 27B et 122B-A10B

Benchmarks Qwen3.5-4B et 9B

Benchmarks Qwen3.5-397B-A17B

PrécédentUltra Long Context RL SuivantBenchmarks GGUF Qwen3.5

Mis à jour il y a 5 heures

Ce contenu vous a-t-il été utile ?

hashtag⚙️ Guide d’utilisation

hashtagParamètres recommandés

hashtagMode réflexion :

hashtagParamètres du mode Instruct (non-réflexion) :

hashtagTutoriels d’inférence Qwen3.5 :

hashtag🦙 Guides Llama.cpp

hashtagQwen3.5-35B-A3B

hashtagQwen3.5 Small (0.8B • 2B • 4B • 9B)

hashtagQwen3.5-27B

hashtagQwen3.5-122B-A10B

hashtagQwen3.5-397B-A17B

hashtag👾 Guide LM Studio

hashtag🦙 Service Llama-server & la bibliothèque de complétions d’OpenAI

hashtag🤔 Comment activer ou désactiver le raisonnement et la réflexion

hashtag👨‍💻 OpenAI Codex & Claude Code

hashtag🔨Appel d’outils avec Qwen3.5

hashtag📊 Benchmarks

hashtagBenchmarks Unsloth GGUF

hashtagBenchmarks Qwen3.5-397B-A17B

hashtagBenchmarks officiels de Qwen

hashtagBenchmarks Qwen3.5-35B-A3B, 27B et 122B-A10B

hashtagBenchmarks Qwen3.5-4B et 9B

hashtagBenchmarks Qwen3.5-397B-A17B

⚙️ Guide d’utilisation

Paramètres recommandés

Mode réflexion :

Paramètres du mode Instruct (non-réflexion) :

Tutoriels d’inférence Qwen3.5 :

🦙 Guides Llama.cpp

Qwen3.5-35B-A3B

Qwen3.5 Small (0.8B • 2B • 4B • 9B)

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

👾 Guide LM Studio

🦙 Service Llama-server & la bibliothèque de complétions d’OpenAI

🤔 Comment activer ou désactiver le raisonnement et la réflexion

👨‍💻 OpenAI Codex & Claude Code

🔨Appel d’outils avec Qwen3.5

📊 Benchmarks

Benchmarks Unsloth GGUF

Benchmarks Qwen3.5-397B-A17B

Benchmarks officiels de Qwen

Benchmarks Qwen3.5-35B-A3B, 27B et 122B-A10B

Benchmarks Qwen3.5-4B et 9B

Benchmarks Qwen3.5-397B-A17B