💜Qwen3.5 - Guide d'exécution locale
Exécutez les nouveaux LLM Qwen3.5, y compris Qwen3.5-397B-A17B, sur votre appareil local !
Qwen3.5 est la nouvelle famille de modèles d'Alibaba, incluant Qwen3.5-397B-A17B, un modèle multimodal de raisonnement de 397 milliards de paramètres (17 milliards actifs) avec des performances comparables à Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2. Il prend en charge contexte 256K (extensible à 1M) sur 201 langues, offre des modes de réflexion et sans réflexion, et excelle en codage, vision, agents, chat et tâches à long contexte.
Le modèle complet Qwen3.5-397B-A17B fait ~807 Go sur le disque, et vous pouvez exécuter la quantification 3 bits sur un 192 Go appareil Mac / RAM ou 4 bits MXFP4 sur un Mac 256 Go: Qwen3.5-397B-A17B GGUF
Tous les téléversements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - ainsi la quantification 4 bits a des couches importantes remontées en 8 ou 16 bits. Merci à Qwen de fournir à Unsloth un accès dès le jour zéro.
⚙️ Guide d'utilisation
La quantification dynamique 4 bits Unsloth UD-Q4_K_XL utilise 214 Go d'espace disque - cela peut se loger directement sur un 256 Go M3 Ultra, et fonctionne également bien dans un 1x24Go carte et 256 Go de RAM avec déchargement MoE pour 25+ tokens/s. La quantification3 -bit
tiendra sur une RAM de 192 Go et 8 bits nécessite 512 Go de RAM/VRAM.
Paramètres recommandés
Pour de meilleures performances, faites en sorte que la somme de votre VRAM + RAM soit égale à la taille de la quantification que vous téléchargez. Sinon, le déchargement sur disque dur / SSD fonctionnera avec llama.cpp, seule l'inférence sera plus lente.
température = 0.6
temperature = 0.7
top_p = 0.95
top_p = 0.8
Mode sans réflexion
Mode sans réflexion
tok_k = 20
tok_k = 20
repeat penalty = désactivé ou 1.0
repeat penalty = désactivé ou 1.0
Fenêtre de contexte maximale :
262,144presence_penalty = 0.0 à 2.0min_p = 0--mmproj unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/mmproj-F16.gguf
par défaut ceci est désactivé, mais pour réduire les répétitions, vous pouvez l'utiliser ; toutefois, utiliser une valeur plus élevée peut entraîner une légère diminution des performances,temperature=0.6,top_p=0.95,top_k=20min_p=0
Sans réflexion :,temperature=0.7,top_p=0.95,top_k=20Longueur de sortie adéquate:
32,768top_p=0.8
tokens pour la plupart des requêtes
Tutoriel Qwen3.5-397B-A17B : Pour ce guide, nous utiliserons Dynamic MXFP4_MOE
✨ Exécuter dans llama.cpp
Obtenez le dernier llama.cpp sur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Si vous voulez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q3_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. Rappelez-vous que le modèle n’a qu’une longueur de contexte maximale de 200K.
Suivez ceci pour réflexion qui tient bien sur un appareil 256 Go RAM / Mac pour une inférence rapide :
Suivez ceci pour --min-p 0.00 qui tient bien sur un appareil 256 Go RAM / Mac pour une inférence rapide :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Pour ce guide, nous utiliserons Dynamic --chat-template-kwargs "{\"enable_thinking\": false}" UD-Q4_K_XL (4 bits dynamique) ou d'autres versions quantifiées comme UD-Q2_K_XL . Nous recommandons d'utiliser au moins la quantification dynamique 2 bits
Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement GPU sur le nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n'avez qu'une inférence CPU.
--model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_MOE-00001-of-00006.gguf \ --min-p 0.00 \
🦙 Service Llama-server & bibliothèque de complétion d'OpenAI
Pour désactiver la réflexion / le raisonnement, utilisez llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :
Puis, dans un nouveau terminal, après avoir fait pip install openai, faites :
🔨model = "unsloth/Qwen3.5-397B-A17B",
Voir Tool Calling Guide pour plus de détails sur la façon de faire des appels d'outil. Dans un nouveau terminal (si vous utilisez tmux, utilisez CTRL+B+D), nous créons quelques outils comme l'addition de 2 nombres, l'exécution de code Python, l'exécution de fonctions Linux et bien plus :
Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonctions et appelleront le point de terminaison OpenAI pour n'importe quel modèle :
min_p = 0.00, llama-server comme dans Qwen3.5 ou voir Tool Calling Guide pour plus de détails, nous pouvons ensuite effectuer quelques appels d'outils.
📊 Benchmarks
Après le lancement de Qwen3.5 via

Vous pouvez voir plus bas les benchmarks de Qwen3.5-397B-A17B au format tableau :
Benchmarks linguistiques
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Reflection
K2.5-1T-A32B
Qwen3.5-397B-A17B
87.4
89.5
89.8
85.7
87.1
87.8
MMLU-Pro
95.0
95.6
95.9
92.8
94.5
94.9
MMLU-Redux
67.9
70.6
74.0
67.3
69.2
70.4
SuperGPQA
90.5
92.2
93.4
93.7
94.0
93.0
C-Eval
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Reflection
K2.5-1T-A32B
Suivi d'instructions
94.8
90.9
93.5
93.4
93.9
92.6
IFEval
75.4
58.0
70.4
70.9
70.2
76.5
IFBench
57.9
54.2
64.2
63.3
62.7
67.6
MultiChallenge
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Reflection
K2.5-1T-A32B
Long Contexte
72.7
74.0
70.7
68.7
70.0
68.7
AA-LCR
54.5
64.4
68.2
60.6
61.0
63.2
LongBench v2
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Reflection
K2.5-1T-A32B
STEM
92.4
87.0
91.9
87.4
87.6
88.4
HLE
35.5
30.8
37.5
30.2
30.1
28.7
GPQA
43.3
38.8
48
37.6
--
37.6
HLE-Verified¹
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Reflection
K2.5-1T-A32B
Raisonnement
87.7
84.8
90.7
85.9
85.0
83.6
LiveCodeBench v6
99.4
92.9
97.3
98.0
95.4
94.8
HMMT Feb 25
100
93.3
93.3
94.7
91.1
92.7
IMOAnswerBench
86.3
84.0
83.3
83.9
81.8
80.9
HMMT Nov 25
96.7
93.3
90.6
93.3
93.3
91.3
AIME26
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Reflection
K2.5-1T-A32B
Agent général
63.1
77.5
72.5
67.7
68.3
72.9
BFCL-V4
87.1
91.6
85.4
84.6
77.0
86.7
TAU2-Bench
38.2
56.3
51.6
40.9
41.9
49.7
VITA-Bench
44.6
33.9
23.3
28.7
14.5
34.3
DeepPlanning
43.8
43.5
36.4
18.8
27.8
38.3
Tool Decathlon
57.5
42.3
53.9
33.5
29.5
46.1
MCP-Mark
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Reflection
K2.5-1T-A32B
Agent de recherche³
45.5
43.4
45.8
49.8
50.2
48.3
BrowseComp
65.8
67.8
59.2
53.9
--/74.9
69.0/78.6
HLE avec outil
76.1
62.4
66.8
60.9
--
70.3
BrowseComp-zh
76.8
76.4
68.0
57.9
72.7
74.0
WideSearch
45.0
47.7
45.5
46.9
57.4
46.9
Seal-0
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Reflection
K2.5-1T-A32B
Multilinguisme
89.5
90.1
90.6
84.4
86.0
88.5
MMMLU
83.7
85.7
87.7
78.5
82.3
84.7
MMLU-ProX
54.6
56.7
56.7
54.2
56.0
59.1
NOVA-63
87.5
86.2
90.5
82.3
83.3
85.6
INCLURE
90.9
91.6
93.2
86.0
89.3
89.8
PIQA Global
62.5
79.0
81.6
64.7
43.1
73.3
PolyMATH
78.8
79.7
80.7
77.6
77.6
78.9
WMT24++
88.4
79.2
87.5
84.0
72.8
88.2
MAXIFE
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Reflection
K2.5-1T-A32B
SWE-bench Vérifié
80.0
80.9
76.2
75.3
76.8
76.4
SWE-bench Multilingue
72.0
77.5
65.0
66.7
73.0
72.0
Agent de codage
68.7
68.6
62.4
57.5
61.3
68.3
SecCodeBench
54.0
59.3
54.2
22.5
50.8
52.5
Terminal Bench 2
https://huggingface.co/datasets/skylenage/HLE-Verified
TAU2-Bench : nous suivons la configuration officielle sauf pour le domaine des compagnies aériennes, où tous les modèles sont évalués en appliquant les corrections proposées dans la fiche système de Claude Opus 4.5.
MCPMark : le serveur MCP GitHub utilise la v0.30.3 de api.githubcopilot.com ; les réponses de l'outil Playwright sont tronquées à 32k tokens.
Agent de recherche : la plupart des agents de recherche construits sur notre modèle adoptent une stratégie simple de pliage de contexte (256k) : une fois que la longueur cumulative des réponses d'outil atteint un seuil prédéfini, les réponses d'outil antérieures sont supprimées de l'historique pour garder le contexte dans les limites.
BrowseComp : nous avons testé deux stratégies, le simple pliage de contexte a obtenu un score de 69,0, tandis que l'utilisation de la même stratégie de tout rejeter que DeepSeek-V3.2 et Kimi K2.5 a obtenu 78,6.
WideSearch : nous utilisons une fenêtre de contexte de 256k sans aucune gestion du contexte.
MMLU-ProX : nous rapportons la précision moyenne sur 29 langues.
WMT24++ : un sous-ensemble plus difficile de WMT24 après étiquetage de difficulté et rééquilibrage ; nous rapportons les scores moyens sur 55 langues en utilisant XCOMET-XXL.
MAXIFE : nous rapportons la précision sur les invites originales en anglais + multilingues (au total 23 paramètres).
Les cellules vides (--) indiquent des scores pas encore disponibles ou non applicables.
Benchmarks Vision-Langage
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
STEM et Puzzle
Qwen3-Max-Reflection
K2.5-1T-A32B
Qwen3-VL-235B-A22B
86.7
80.7
87.2
80.6
84.3
85.0
MMMU
79.5
70.6
81.0
69.3
78.5
79.0
MMMU-Pro
83.0
74.3
86.6
74.6
84.2
88.6
MathVision
83.1
80.0
87.9
85.8
90.1
90.3
Mathvista(mini)
79.0
70.0
86.9
74.8
84.7
87.9
We-Math
86.8
79.7
85.1
82.8
84.4
86.3
DynaMath
9
3
10
4
9
12
ZEROBench
33.2
28.4
39.0
28.4
33.5
41.0
ZEROBench_sub
34.4
14.2
49.7
22.2
36.5
52.3/43.3
BabyVision
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
STEM et Puzzle
Qwen3-Max-Reflection
K2.5-1T-A32B
RealWorldQA
83.3
77.0
83.3
81.3
81.0
83.9
MMStar
77.1
73.2
83.1
78.7
80.5
83.8
VQA général
65.2
64.1
68.6
66.7
69.8
71.4
HallusionBench
88.2
89.2
93.7
89.7
94.2
93.7
MMBench (EN-DEV-v1.1)
55.8
65.7
73.2
61.3
71.2
67.1
SimpleVQA
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
STEM et Puzzle
Qwen3-Max-Reflection
K2.5-1T-A32B
Reconnaissance de texte et compréhension de documents
85.7
87.7
88.5
84.5
88.8
90.8
OmniDocBench1.5
82.1
68.5
81.4
66.1
77.5
80.8
CharXiv(RQ)
--
61.9
60.5
56.2
58.5
61.5
MMLongBench-Doc
70.3
76.9
79.0
81.5
79.7
82.0
CC-OCR
92.2
87.7
94.1
89.2
90.8
93.9
AI2D_TEST
80.7
85.8
90.4
87.5
92.3
93.1
OCRBench
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
STEM et Puzzle
Qwen3-Max-Reflection
K2.5-1T-A32B
Intelligence spatiale
59.8
46.8
70.5
52.5
--
67.5
ERQA
91.9
90.6
97.3
93.7
94.1
97.2
CountBench
--
--
84.1
91.1
87.8
92.3
RefCOCO(moy)
--
--
46.3
43.2
--
47.0
ODInW13
81.3
75.7
61.2
84.3
77.4
84.5
EmbSpatialBench
--
--
65.5
69.9
--
73.6
RefSpatialBench
68.8
78.8
72.8
66.8
68.2
81.6
LingoQA
75.9
67.0
88.0
85.9
77.0
95.8/91.1
V*
--
--
--
11.0
--
12.5
Hypersim
--
--
--
34.9
--
38.3
SUNRGBD
--
--
--
13.9
--
16.0
Nuscene
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
STEM et Puzzle
Qwen3-Max-Reflection
K2.5-1T-A32B
Compréhension vidéo
86
77.6
88.4
83.8
87.4
87.5
VideoMME (avec sous.)
85.8
81.4
87.7
79.0
83.2
83.7
VideoMME (sans sous.)
85.9
84.4
87.6
80.0
86.6
84.7
VideoMMMU
85.6
81.7
83.0
83.8
85.0
86.7
MLVU (M-Avg)
78.1
67.2
74.1
75.2
73.5
77.6
MVBench
73.7
57.3
76.2
63.6
75.9
75.5
LVBench
80.8
77.3
77.5
71.1
80.4
75.4
MMVU
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
STEM et Puzzle
Qwen3-Max-Reflection
K2.5-1T-A32B
Agent visuel
--
45.7
72.7
62.0
--
65.6
ScreenSpot Pro
38.2
66.3
--
38.1
63.3
62.2
OSWorld-Verified
--
--
--
63.7
--
66.8
AndroidWorld
Benchmark
Connaissances
GPT5.2
Claude 4.5 Opus
STEM et Puzzle
Qwen3-Max-Reflection
K2.5-1T-A32B
Médical
69.8
65.6
74.5
65.4
79.9
76.3
VQA-RAD
76.9
76.4
81.3
54.7
81.6
79.9
SLAKE
72.9
75.5
80.3
65.4
87.4
85.1
OM-VQA
58.9
59.9
62.3
41.2
63.3
64.2
PMC-VQA
73.3
63.6
76.0
47.6
65.3
70.0
Terminal Bench 2
MedXpertQA-MM
MathVision : le score de notre modèle est évalué en utilisant une invite fixe, par ex. « Veuillez raisonner pas à pas, et mettre votre réponse finale entre\boxed{}MathVision : le score de notre modèle est évalué en utilisant une invite fixe, par ex. « Veuillez raisonner pas à pas, et mettre votre réponse finale entre». Pour les autres modèles, nous rapportons le score le plus élevé entre les exécutions avec et sans lamise en forme.
BabyVision : le score de notre modèle est rapporté avec CI (Code Interpreter) activé ; sans CI, le résultat est de 43,3.
MAXIFE : nous rapportons la précision sur les invites originales en anglais + multilingues (au total 23 paramètres).
Mis à jour
Ce contenu vous a-t-il été utile ?

