💜Qwen3.5 - Comment l'exécuter localement
Exécutez les nouveaux LLMs Qwen3.5, y compris Medium : Qwen3.5-35B-A3B, 27B, 122B-A10B, Small : Qwen3.5-0.8B, 2B, 4B, 9B et 397B-A17B sur votre appareil local !
Qwen3.5 est la nouvelle famille de modèles d’Alibaba, incluant Qwen3.5-35B-A3B, 27B, 122B-A10B et 397B-A17B et la nouvelle série Small : Qwen3.5-0.8B, 2B, 4B et 9B. Les LLM multimodaux hybrides de raisonnement offrent les meilleures performances pour leurs tailles. Ils prennent en charge contexte de 256K dans 201 langues, ont thinking + non-thinking, et excellent dans le codage agentique, la vision, le chat et les tâches à long contexte. Les modèles 35B et 27B fonctionnent sur un appareil Mac / RAM de 22 Go. Voir tous les GGUF ici.
Exécuter les tutoriels Qwen3.5Ajuster finement Qwen3.5
Mise à jour du 17 mars : Vous pouvez désormais exécuter Qwen3.5 dans Unsloth Studio.
Mise à jour du 5 mars : Retéléchargez Qwen3.5-35B, 27B, 122B et 397B.
Tous les GGUF sont désormais mis à jour avec un algorithme de quantification amélioré .
Tous utilisent nos nouvelles données imatrix. Voyez quelques améliorations dans les cas d’usage de chat, codage, long contexte et appel d’outils.
L’appel d’outils a été amélioré suite à nos corrections du modèle de chat. La correction est universelle et s’applique à n’importe quel format Qwen3.5 et n’importe quel uploader.
Consultez les nouveaux benchmarks GGUF pour les résultats de performance d’Unsloth + notre enquête MXFP4.
Nous retirons les couches MXFP4 de 3 GGUF Qwen3.5 : Q2_K_XL, Q3_K_XL et Q4_K_XL.
Tous les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - ainsi, le 4 bits a des couches importantes converties en 8 ou 16 bits. Merci à Qwen d’avoir fourni à Unsloth un accès dès le premier jour. Vous pouvez aussi affiner Qwen3.5 avec Unsloth.
Pour activer ou désactiver le thinking, voir Qwen3.5.Les modèles Qwen3.5 Small le désactivent par défaut.
⚙️ Guide d'utilisation
Tableau : Exigences matérielles pour l’inférence (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée)
Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (VRAM + RAM système) dépasse la taille du fichier du modèle quantifié que vous téléchargez. Si ce n'est pas le cas, llama.cpp peut toujours fonctionner via un déchargement vers SSD/HDD, mais l'inférence sera plus lente.
Entre 27B et 35B-A3B, utilisez 27B si vous voulez des résultats légèrement plus précis et que cela ne tient pas sur votre appareil. Optez pour 35B-A3B si vous voulez une inférence beaucoup plus rapide.
Paramètres recommandés
Fenêtre de contexte maximale :
262,144(peut être étendu à 1M via YaRN)presence_penalty = de 0.0 à 2.0par défaut c’est désactivé, mais pour réduire les répétitions, vous pouvez utiliser ceci, cependant utiliser une valeur plus élevée peut entraîner une légère baisse de performanceLongueur de sortie adéquate:
32,768tokens pour la plupart des requêtes
Si vous obtenez du charabia, votre longueur de contexte est peut-être réglée trop bas. Ou essayez d’utiliser --cache-type-k bf16 --cache-type-v bf16 ce qui pourrait aider.
Comme Qwen3.5 est un raisonnement hybride, les modes thinking et non-thinking ont des réglages différents :
Mode thinking :
température = 1.0
température = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repeat_penalty = désactivé ou 1.0
repeat_penalty = désactivé ou 1.0
Mode thinking pour les tâches générales :
Mode thinking pour les tâches de codage précises :
Réglages du mode instruct (non-thinking) :
température = 0.7
température = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repeat_penalty = désactivé ou 1.0
repeat_penalty = désactivé ou 1.0
Pour désactiver le thinking / raisonnement, utilisez --chat-template-kwargs '{"enable_thinking":false}'
Si vous êtes sur Windows Powershell, utilisez : --chat-template-kwargs "{\"enable_thinking\":false}"
Utilisez 'true' et 'false' de manière interchangeable.
Pour Qwen3.5 0.8B, 2B, 4B et 9B, le raisonnement est désactivé par défaut. Pour l’activer, utilisez : --chat-template-kwargs '{"enable_thinking":true}'
Instruct (non-thinking) pour les tâches générales :
Instruct (non-thinking) pour les tâches de raisonnement :
Tutoriels d’inférence Qwen3.5 :
Comme Qwen3.5 existe en de nombreuses tailles différentes, nous utiliserons Dynamic 4-bit MXFP4_MOE variantes GGUF pour toutes les charges d’inférence. Cliquez ci-dessous pour accéder aux instructions du modèle désigné :
Exécuter dans Unsloth StudioQwen3.5-35B-A3B27B122B-A10B397B-A17BSmall (0.8B - 9B)
Uploads GGUF dynamiques Unsloth :
presence_penalty = de 0.0 à 2.0 par défaut c’est désactivé, mais pour réduire les répétitions, vous pouvez utiliser ceci, cependant utiliser une valeur plus élevée peut entraîner une légère baisse de performance.
Actuellement, aucun GGUF Qwen3.5 ne fonctionne dans Ollama à cause de fichiers vision mmproj séparés. Utilisez des backends compatibles llama.cpp.
🦥 Guide Unsloth Studio
Qwen3.5 peut être exécuté et ajusté finement dans Unsloth Studio, notre nouvelle interface web open source pour l’IA locale. Unsloth Studio vous permet d’exécuter des modèles localement sur MacOS, Windows, Linux et :
Rechercher, télécharger, exécuter des GGUF et des modèles safetensor
Auto-réparation appel d’outils + recherche web
Exécution de code (Python, Bash)
Inférence automatique réglage des paramètres (temp, top-p, etc.)
Inférence rapide CPU + GPU via llama.cpp
Entraîner des LLM 2x plus vite avec 70 % de VRAM en moins

Rechercher et télécharger Qwen3.5
Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant de configuration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment.
Ensuite, allez dans l’onglet Studio Chat onglet et recherchez Qwen3.5 dans la barre de recherche puis téléchargez le modèle et la quantification souhaités.

Exécuter Qwen3.5
Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio ; toutefois, vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de conversation et d’autres réglages.
Pour plus d’informations, vous pouvez consulter notre guide d’inférence Unsloth Studio.

🦙 Guides Llama.cpp
Qwen3.5-35B-A3B
Pour ce guide, nous utiliserons Dynamic 4-bit qui fonctionne très bien sur un appareil à 24 Go de RAM / Mac pour une inférence rapide. Comme le modèle ne fait qu’environ 72 Go en précision F16 complète, nous n’aurons pas trop à nous soucier des performances. GGUF : Qwen3.5-35B-A3B-GGUF
Pour ces tutoriels, nous utiliserons llama.cpp pour une inférence locale rapide, surtout si vous avez un CPU.
Obtenez la dernière version llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut.
Si vous souhaitez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.
Suivez l’une des commandes spécifiques ci-dessous, selon votre cas d’usage :
Mode thinking :
Tâches de codage précises (p. ex. WebDev) :
Tâches générales :
Mode non-thinking :
Tâches générales :
Tâches de raisonnement :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au moins une quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Puis exécutez le modèle en mode conversation :
Qwen3.5 Small (0.8B • 2B • 4B • 9B)
Pour Qwen3.5 0.8B, 2B, 4B et 9B, le raisonnement est désactivé par défaut. Pour l’activer, utilisez : --chat-template-kwargs '{"enable_thinking":true}'
Sous Windows, utilisez : --chat-template-kwargs "{\"enable_thinking\":true}"
Pour la série Qwen3.5 Small, comme ils sont très petits, tout ce que vous devez faire est de changer le nom du modèle dans les scripts vers la variante souhaitée. Pour ce guide spécifique, nous utiliserons la variante à 9B paramètres. Pour tous les exécuter en quasi pleine précision, il vous faudra seulement un appareil avec 12 Go de RAM / VRAM / mémoire unifiée. GGUF :
Obtenez la dernière version llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU.
Si vous souhaitez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.
Suivez l’une des commandes spécifiques ci-dessous, selon votre cas d’usage :
Pour utiliser une autre variante que 9B, vous pouvez remplacer '9B' par : 0.8B, 2B ou 4B, etc.
Mode thinking (désactivé par défaut)
Les modèles Qwen3.5 Small désactivent le thinking par défaut. Utilisez llama-server pour l’activer.
Tâches générales :
Pour utiliser une autre variante que 9B, vous pouvez remplacer '9B' par : 0.8B, 2B ou 4B, etc.
Le mode non-thinking est déjà activé par défaut
Tâches générales :
Tâches de raisonnement :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au moins une quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Puis exécutez le modèle en mode conversation :
Qwen3.5-27B
Pour ce guide, nous utiliserons Dynamic 4-bit qui fonctionne très bien sur un appareil à 18 Go de RAM / Mac pour une inférence rapide. GGUF : Qwen3.5-27B-GGUF
Obtenez la dernière version llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU.
Si vous souhaitez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.
Suivez l’une des commandes spécifiques ci-dessous, selon votre cas d’usage :
Mode thinking :
Tâches de codage précises (p. ex. WebDev) :
Tâches générales :
Mode non-thinking :
Tâches générales :
Tâches de raisonnement :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir MXFP4_MOE ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au moins une quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Puis exécutez le modèle en mode conversation :
Qwen3.5-122B-A10B
Pour ce guide, nous utiliserons Dynamic 4-bit qui fonctionne très bien sur un appareil à 70 Go de RAM / Mac pour une inférence rapide. GGUF : Qwen3.5-122B-A10B-GGUF
Obtenez la dernière version llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU.
Si vous souhaitez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. Le modèle a une longueur de contexte maximale de 256K.
Suivez l’une des commandes spécifiques ci-dessous, selon votre cas d’usage :
Mode thinking :
Tâches de codage précises (p. ex. WebDev) :
Tâches générales :
Mode non-thinking :
Tâches générales :
Tâches de raisonnement :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir MXFP4_MOE (4 bits dynamique) ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au moins une quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Puis exécutez le modèle en mode conversation :
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B est dans le même niveau de performance que Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2. Le checkpoint complet 397B représente ~807 Go sur disque, mais via les GGUF 397B d’Unsloth vous pouvez exécuter :
3 bits: tient sur des systèmes à 192 Go de RAM (p. ex., un Mac de 192 Go)
4 bits (MXFP4): tient sur des systèmes à 256 Go de RAM. Unsloth 4 bits dynamique UD-Q4_K_XL est ~214 Go sur disque - se charge directement sur un M3 Ultra 256 Go
Fonctionne sur un GPU unique de 24 Go + 256 Go de RAM système via déchargement MoE, atteignant 25+ tokens/s
8 bits nécessite ~512 Go de RAM/VRAM
Voir Benchmarks de quantification 397B sur les performances des GGUF Unsloth.
Obtenez la dernière version llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU.
Si vous souhaitez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q4_K_M) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. N’oubliez pas que le modèle n’a qu’une longueur de contexte maximale de 256K.
Suivez ceci pour les cas d'utilisation de thinking mode :
Suivez ceci pour les cas d'utilisation de non-thinking mode :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir MXFP4_MOE (4 bits dynamique) ou d’autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d’utiliser au moins une quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --n-gpu-layers 2 pour le déchargement GPU, selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le aussi si vous n'avez qu'une inférence CPU.
👾 Guide LM Studio
Pour ce guide, nous utiliserons LM Studio, une interface UI unifiée pour exécuter des LLM. Le bouton bascule '💡Thinking' et 'Non-thinking' peut ne pas apparaître par défaut, nous aurons donc besoin de quelques étapes supplémentaires pour le faire fonctionner.
Télécharger LM Studio pour votre appareil. Ensuite, ouvrez Model Search, recherchez 'unsloth/qwen3.5' et téléchargez le GGUF (quant) que vous souhaitez.

Instructions du bouton bascule Thinking : Après le téléchargement, ouvrez votre Terminal / PowerShell et essayez : lms --help. Ensuite, si LM Studio apparaît normalement avec de nombreuses commandes, exécutez :
Cela récupérera un fichier yaml qui permet à votre GGUF d’afficher le bouton bascule '💡Thinking' et 'Non-thinking'. Vous pouvez changer 4b par la quantification souhaitée.

Sinon, vous pouvez aller sur notre page LM Studio et télécharger le fichier yaml spécifique.
Redémarrez LM Studio, puis chargez votre modèle téléchargé (avec le bouton thinking spécifique que vous avez téléchargé). Vous devriez maintenant voir le bouton Thinking activé. N’oubliez pas de définir les paramètres corrects.

🦙 Llama-server pour le service et la bibliothèque de complétion d'OpenAI
Pour déployer Qwen3.5-397B-A17B en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :
Puis dans un nouveau terminal, après avoir fait pip install openai, faites :
🤔 Comment activer ou désactiver le raisonnement et le thinking
Pour les commandes ci-dessous, vous pouvez utiliser 'true' et 'false' de manière interchangeable.
Unsloth Studio a automatiquement un bouton bascule 'Think' pour les modèles thinking.
Pour avoir le bouton bascule Think pour LM Studio, lisez notre guide.

Pour désactiver thinking / raisonnement, utilisez dans llama-server :
Si vous êtes sur Windows ou Powershell, utilisez : --chat-template-kwargs "{\"enable_thinking\":false}"
Pour activer thinking / raisonnement, utilisez dans llama-server :
Si vous êtes sur Windows ou Powershell, utilisez : --chat-template-kwargs "{\"enable_thinking\":true}"
Pour Qwen3.5 0.8B, 2B, 4B et 9B, le raisonnement est désactivé par défaut. Pour l’activer, utilisez : --chat-template-kwargs '{"enable_thinking":true}'
Et sous Windows ou Powershell : --chat-template-kwargs "{\"enable_thinking\":true}"
Comme exemple pour Qwen3.5-9B afin d’activer le thinking (désactivé par défaut) :
Et ensuite en Python :

👨💻 OpenAI Codex & Claude Code
Pour exécuter le modèle via des charges de travail locales de codage agentique, vous pouvez suivre notre guide. Il suffit de changer le nom du modèle pour la variante 'Qwen3.5' souhaitée et de vous assurer de suivre les paramètres corrects et les instructions d’utilisation de Qwen3.5. Utilisez le llama-server que nous venons juste de configurer.
Après avoir suivi les instructions pour Claude Code par exemple, vous verrez :

Nous pouvons alors demander par exemple Créer un jeu d’échecs en Python :



🔨Appel d’outils avec Qwen3.5
Voir Tool Calling Guide pour plus de détails sur la façon de faire des appels d'outils. Dans un nouveau terminal (si vous utilisez tmux, utilisez CTRL+B+D), nous créons quelques outils comme l'addition de 2 nombres, l'exécution de code Python, l'exécution de fonctions Linux et bien plus encore :
Nous utilisons ensuite les fonctions ci-dessous (copiez-collez puis exécutez) qui analyseront automatiquement les appels de fonction et appelleront l'endpoint OpenAI pour n'importe quel modèle :
Après avoir lancé Qwen3.5 via llama-server comme dans Qwen3.5 ou voir Tool Calling Guide pour plus de détails, nous pouvons ensuite effectuer quelques appels d'outils.
📊 Benchmarks
Benchmarks GGUF Unsloth
Nous avons mis à jour les quantifications dynamiques Unsloth de Qwen3.5-35B étant SOTA sur presque tous les bits. Nous avons effectué plus de 150 benchmarks de divergence KL, totalisant 9 To de GGUF. Nous avons téléchargé tous les artefacts de recherche. Nous avons aussi corrigé un appel d’outils modèle de chat bug (affecte tous les uploaders de quantification)
Tous les GGUF sont désormais mis à jour avec un algorithme de quantification amélioré .
Tous utilisent nos nouvelles données imatrix. Voyez quelques améliorations dans les cas d’usage de chat, codage, long contexte et appel d’outils.
Les GGUF Qwen3.5-35B-A3B sont mis à jour pour utiliser les nouveaux correctifs (112B, 27B sont encore en conversion, retéléchargez-les une fois qu’ils sont mis à jour)
99.9% de divergence KL montre le SOTA sur la frontière de Pareto pour UD-Q4_K_XL, IQ3_XXS et plus.
Retrait de MXFP4 de toutes les quantifications GGUF : Q2_K_XL, Q3_K_XL et Q4_K_XL, sauf pour le pur MXFP4_MOE.


LISEZ ICI NOTRE ANALYSE DÉTAILLÉE DE QWEN3.5 + BENCHMARKS :
Benchmarks Qwen3.5 GGUFBenchmarks Qwen3.5-397B-A17B

Benjamin Marie (tiers) a benchmarké Qwen3.5-397B-A17B en utilisant les GGUF Unsloth sur une suite mixte de 750 prompts (LiveCodeBench v6, MMLU Pro, GPQA, Math500), en rapportant à la fois la précision globale et l’augmentation relative de l’erreur (à quelle fréquence le modèle quantifié fait plus d’erreurs que l’original).
Résultats clés (précision ; changement vs. original ; augmentation relative de l’erreur) :
Poids originaux : 81.3%
UD-Q4_K_XL : 80.5% (−0.8 points ; +4.3% d’augmentation relative de l’erreur)
UD-Q3_K_XL : 80.7% (−0.6 points ; +3.5% d’augmentation relative de l’erreur)
UD-Q4_K_XL et UD-Q3_K_XL restent extrêmement proches de l’original, bien en dessous d’une baisse de précision d’1 point sur cette suite, ce que Ben laisse entendre comme signifiant que vous pouvez réduire fortement l’empreinte mémoire (~500 Go de moins) avec peu ou pas de perte pratique sur les tâches testées.
Comment choisir : Le fait que Q3 obtienne ici un score légèrement supérieur à Q4 est tout à fait plausible comme variance normale d’une exécution à l’autre à cette échelle, donc considérez Q3 et Q4 comme d’une qualité effectivement similaire dans ce benchmark :
Choisissez Q3 si vous voulez la plus petite empreinte / les meilleures économies de mémoire
Choisissez Q4 si vous voulez une option légèrement plus conservatrice avec des similaires résultats
Toutes les quantifications listées utilisent notre méthodologie dynamique. Même UD-IQ2_M utilise la même méthodologie dynamique cependant le processus de conversion est différent de UD-Q2-K-XL où K-XL est généralement plus rapide que UD-IQ2_M même s’il est plus grand, c’est pourquoi UD-IQ2_M peut offrir de meilleures performances que UD-Q2-K-XL.
Benchmarks officiels de Qwen
Benchmarks Qwen3.5-35B-A3B, 27B et 122B-A10B

Benchmarks Qwen3.5-4B et 9B

Benchmarks Qwen3.5-397B-A17B

Mis à jour
Ce contenu vous a-t-il été utile ?


