💜Qwen3.5 - Guide d'exécution locale

Exécutez les nouveaux LLM Qwen3.5, y compris Qwen3.5-397B-A17B, sur votre appareil local !

Qwen3.5 est la nouvelle famille de modèles d'Alibaba, incluant Qwen3.5-397B-A17B, un modèle multimodal de raisonnement de 397 milliards de paramètres (17 milliards actifs) avec des performances comparables à Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2. Il prend en charge contexte 256K (extensible à 1M) sur 201 langues, offre des modes de réflexion et sans réflexion, et excelle en codage, vision, agents, chat et tâches à long contexte.

Le modèle complet Qwen3.5-397B-A17B fait ~807 Go sur le disque, et vous pouvez exécuter la quantification 3 bits sur un 192 Go appareil Mac / RAM ou 4 bits MXFP4 sur un Mac 256 Go: Qwen3.5-397B-A17B GGUFarrow-up-right

Tous les téléversements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - ainsi la quantification 4 bits a des couches importantes remontées en 8 ou 16 bits. Merci à Qwen de fournir à Unsloth un accès dès le jour zéro.

⚙️ Guide d'utilisation

La quantification dynamique 4 bits Unsloth UD-Q4_K_XL utilise 214 Go d'espace disque - cela peut se loger directement sur un 256 Go M3 Ultra, et fonctionne également bien dans un 1x24Go carte et 256 Go de RAM avec déchargement MoE pour 25+ tokens/s. La quantification3 -bit

circle-check

Paramètres recommandés

Pour de meilleures performances, faites en sorte que la somme de votre VRAM + RAM soit égale à la taille de la quantification que vous téléchargez. Sinon, le déchargement sur disque dur / SSD fonctionnera avec llama.cpp, seule l'inférence sera plus lente.

Comme Qwen3.5 est un raisonnement hybride, les modes réflexion et sans réflexion exigent des paramètres différents :
Mode réflexion

température = 0.6

temperature = 0.7

top_p = 0.95

top_p = 0.8

Mode sans réflexion

Mode sans réflexion

tok_k = 20

tok_k = 20

repeat penalty = désactivé ou 1.0

repeat penalty = désactivé ou 1.0

  • Fenêtre de contexte maximale : 262,144

  • presence_penalty = 0.0 à 2.0 min_p = 0

  • --mmproj unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/mmproj-F16.gguf par défaut ceci est désactivé, mais pour réduire les répétitions, vous pouvez l'utiliser ; toutefois, utiliser une valeur plus élevée peut entraîner une légère diminution des performances, temperature=0.6, top_p=0.95, top_k=20

  • min_p=0 Sans réflexion :, temperature=0.7, top_p=0.95, top_k=20

  • Longueur de sortie adéquate: 32,768 top_p=0.8

tokens pour la plupart des requêtes

Tutoriel Qwen3.5-397B-A17B : Pour ce guide, nous utiliserons Dynamicarrow-up-right MXFP4_MOE

✨ Exécuter dans llama.cpp

1

Obtenez le dernier llama.cpp sur GitHub iciarrow-up-right. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.

2

Si vous voulez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q3_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. Rappelez-vous que le modèle n’a qu’une longueur de contexte maximale de 200K.

Suivez ceci pour réflexion qui tient bien sur un appareil 256 Go RAM / Mac pour une inférence rapide :

Suivez ceci pour --min-p 0.00 qui tient bien sur un appareil 256 Go RAM / Mac pour une inférence rapide :

3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Pour ce guide, nous utiliserons Dynamic --chat-template-kwargs "{\"enable_thinking\": false}" UD-Q4_K_XL (4 bits dynamique) ou d'autres versions quantifiées comme UD-Q2_K_XL . Nous recommandons d'utiliser au moins la quantification dynamique 2 bits

4

Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement GPU sur le nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n'avez qu'une inférence CPU.

circle-info

--model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_MOE-00001-of-00006.gguf \ --min-p 0.00 \

🦙 Service Llama-server & bibliothèque de complétion d'OpenAI

Pour désactiver la réflexion / le raisonnement, utilisez llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

Puis, dans un nouveau terminal, après avoir fait pip install openai, faites :

🔨model = "unsloth/Qwen3.5-397B-A17B",

Voir Tool Calling Guide pour plus de détails sur la façon de faire des appels d'outil. Dans un nouveau terminal (si vous utilisez tmux, utilisez CTRL+B+D), nous créons quelques outils comme l'addition de 2 nombres, l'exécution de code Python, l'exécution de fonctions Linux et bien plus :

Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonctions et appelleront le point de terminaison OpenAI pour n'importe quel modèle :

min_p = 0.00, llama-server comme dans Qwen3.5 ou voir Tool Calling Guide pour plus de détails, nous pouvons ensuite effectuer quelques appels d'outils.

📊 Benchmarks

Après le lancement de Qwen3.5 via

Vous pouvez voir plus bas les benchmarks de Qwen3.5-397B-A17B au format tableau :

Benchmarks linguistiques

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Qwen3.5-397B-A17B

87.4

89.5

89.8

85.7

87.1

87.8

MMLU-Pro

95.0

95.6

95.9

92.8

94.5

94.9

MMLU-Redux

67.9

70.6

74.0

67.3

69.2

70.4

SuperGPQA

90.5

92.2

93.4

93.7

94.0

93.0

C-Eval

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Suivi d'instructions

94.8

90.9

93.5

93.4

93.9

92.6

IFEval

75.4

58.0

70.4

70.9

70.2

76.5

IFBench

57.9

54.2

64.2

63.3

62.7

67.6

MultiChallenge

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Long Contexte

72.7

74.0

70.7

68.7

70.0

68.7

AA-LCR

54.5

64.4

68.2

60.6

61.0

63.2

LongBench v2

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

STEM

92.4

87.0

91.9

87.4

87.6

88.4

HLE

35.5

30.8

37.5

30.2

30.1

28.7

GPQA

43.3

38.8

48

37.6

--

37.6

HLE-Verified¹

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Raisonnement

87.7

84.8

90.7

85.9

85.0

83.6

LiveCodeBench v6

99.4

92.9

97.3

98.0

95.4

94.8

HMMT Feb 25

100

93.3

93.3

94.7

91.1

92.7

IMOAnswerBench

86.3

84.0

83.3

83.9

81.8

80.9

HMMT Nov 25

96.7

93.3

90.6

93.3

93.3

91.3

AIME26

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Agent général

63.1

77.5

72.5

67.7

68.3

72.9

BFCL-V4

87.1

91.6

85.4

84.6

77.0

86.7

TAU2-Bench

38.2

56.3

51.6

40.9

41.9

49.7

VITA-Bench

44.6

33.9

23.3

28.7

14.5

34.3

DeepPlanning

43.8

43.5

36.4

18.8

27.8

38.3

Tool Decathlon

57.5

42.3

53.9

33.5

29.5

46.1

MCP-Mark

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Agent de recherche³

45.5

43.4

45.8

49.8

50.2

48.3

BrowseComp

65.8

67.8

59.2

53.9

--/74.9

69.0/78.6

HLE avec outil

76.1

62.4

66.8

60.9

--

70.3

BrowseComp-zh

76.8

76.4

68.0

57.9

72.7

74.0

WideSearch

45.0

47.7

45.5

46.9

57.4

46.9

Seal-0

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Multilinguisme

89.5

90.1

90.6

84.4

86.0

88.5

MMMLU

83.7

85.7

87.7

78.5

82.3

84.7

MMLU-ProX

54.6

56.7

56.7

54.2

56.0

59.1

NOVA-63

87.5

86.2

90.5

82.3

83.3

85.6

INCLURE

90.9

91.6

93.2

86.0

89.3

89.8

PIQA Global

62.5

79.0

81.6

64.7

43.1

73.3

PolyMATH

78.8

79.7

80.7

77.6

77.6

78.9

WMT24++

88.4

79.2

87.5

84.0

72.8

88.2

MAXIFE

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

SWE-bench Vérifié

80.0

80.9

76.2

75.3

76.8

76.4

SWE-bench Multilingue

72.0

77.5

65.0

66.7

73.0

72.0

Agent de codage

68.7

68.6

62.4

57.5

61.3

68.3

SecCodeBench

54.0

59.3

54.2

22.5

50.8

52.5

Terminal Bench 2

  • https://huggingface.co/datasets/skylenage/HLE-Verified

  • TAU2-Bench : nous suivons la configuration officielle sauf pour le domaine des compagnies aériennes, où tous les modèles sont évalués en appliquant les corrections proposées dans la fiche système de Claude Opus 4.5.

  • MCPMark : le serveur MCP GitHub utilise la v0.30.3 de api.githubcopilot.com ; les réponses de l'outil Playwright sont tronquées à 32k tokens.

  • Agent de recherche : la plupart des agents de recherche construits sur notre modèle adoptent une stratégie simple de pliage de contexte (256k) : une fois que la longueur cumulative des réponses d'outil atteint un seuil prédéfini, les réponses d'outil antérieures sont supprimées de l'historique pour garder le contexte dans les limites.

  • BrowseComp : nous avons testé deux stratégies, le simple pliage de contexte a obtenu un score de 69,0, tandis que l'utilisation de la même stratégie de tout rejeter que DeepSeek-V3.2 et Kimi K2.5 a obtenu 78,6.

  • WideSearch : nous utilisons une fenêtre de contexte de 256k sans aucune gestion du contexte.

  • MMLU-ProX : nous rapportons la précision moyenne sur 29 langues.

  • WMT24++ : un sous-ensemble plus difficile de WMT24 après étiquetage de difficulté et rééquilibrage ; nous rapportons les scores moyens sur 55 langues en utilisant XCOMET-XXL.

  • MAXIFE : nous rapportons la précision sur les invites originales en anglais + multilingues (au total 23 paramètres).

Les cellules vides (--) indiquent des scores pas encore disponibles ou non applicables.

Benchmarks Vision-Langage

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Qwen3-VL-235B-A22B

86.7

80.7

87.2

80.6

84.3

85.0

MMMU

79.5

70.6

81.0

69.3

78.5

79.0

MMMU-Pro

83.0

74.3

86.6

74.6

84.2

88.6

MathVision

83.1

80.0

87.9

85.8

90.1

90.3

Mathvista(mini)

79.0

70.0

86.9

74.8

84.7

87.9

We-Math

86.8

79.7

85.1

82.8

84.4

86.3

DynaMath

9

3

10

4

9

12

ZEROBench

33.2

28.4

39.0

28.4

33.5

41.0

ZEROBench_sub

34.4

14.2

49.7

22.2

36.5

52.3/43.3

BabyVision

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

RealWorldQA

83.3

77.0

83.3

81.3

81.0

83.9

MMStar

77.1

73.2

83.1

78.7

80.5

83.8

VQA général

65.2

64.1

68.6

66.7

69.8

71.4

HallusionBench

88.2

89.2

93.7

89.7

94.2

93.7

MMBench (EN-DEV-v1.1)

55.8

65.7

73.2

61.3

71.2

67.1

SimpleVQA

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Reconnaissance de texte et compréhension de documents

85.7

87.7

88.5

84.5

88.8

90.8

OmniDocBench1.5

82.1

68.5

81.4

66.1

77.5

80.8

CharXiv(RQ)

--

61.9

60.5

56.2

58.5

61.5

MMLongBench-Doc

70.3

76.9

79.0

81.5

79.7

82.0

CC-OCR

92.2

87.7

94.1

89.2

90.8

93.9

AI2D_TEST

80.7

85.8

90.4

87.5

92.3

93.1

OCRBench

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Intelligence spatiale

59.8

46.8

70.5

52.5

--

67.5

ERQA

91.9

90.6

97.3

93.7

94.1

97.2

CountBench

--

--

84.1

91.1

87.8

92.3

RefCOCO(moy)

--

--

46.3

43.2

--

47.0

ODInW13

81.3

75.7

61.2

84.3

77.4

84.5

EmbSpatialBench

--

--

65.5

69.9

--

73.6

RefSpatialBench

68.8

78.8

72.8

66.8

68.2

81.6

LingoQA

75.9

67.0

88.0

85.9

77.0

95.8/91.1

V*

--

--

--

11.0

--

12.5

Hypersim

--

--

--

34.9

--

38.3

SUNRGBD

--

--

--

13.9

--

16.0

Nuscene

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Compréhension vidéo

86

77.6

88.4

83.8

87.4

87.5

VideoMME (avec sous.)

85.8

81.4

87.7

79.0

83.2

83.7

VideoMME (sans sous.)

85.9

84.4

87.6

80.0

86.6

84.7

VideoMMMU

85.6

81.7

83.0

83.8

85.0

86.7

MLVU (M-Avg)

78.1

67.2

74.1

75.2

73.5

77.6

MVBench

73.7

57.3

76.2

63.6

75.9

75.5

LVBench

80.8

77.3

77.5

71.1

80.4

75.4

MMVU

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Agent visuel

--

45.7

72.7

62.0

--

65.6

ScreenSpot Pro

38.2

66.3

--

38.1

63.3

62.2

OSWorld-Verified

--

--

--

63.7

--

66.8

AndroidWorld

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Médical

69.8

65.6

74.5

65.4

79.9

76.3

VQA-RAD

76.9

76.4

81.3

54.7

81.6

79.9

SLAKE

72.9

75.5

80.3

65.4

87.4

85.1

OM-VQA

58.9

59.9

62.3

41.2

63.3

64.2

PMC-VQA

73.3

63.6

76.0

47.6

65.3

70.0

Terminal Bench 2

  • MedXpertQA-MM MathVision : le score de notre modèle est évalué en utilisant une invite fixe, par ex. « Veuillez raisonner pas à pas, et mettre votre réponse finale entre\boxed{} MathVision : le score de notre modèle est évalué en utilisant une invite fixe, par ex. « Veuillez raisonner pas à pas, et mettre votre réponse finale entre ». Pour les autres modèles, nous rapportons le score le plus élevé entre les exécutions avec et sans la

  • mise en forme.

  • BabyVision : le score de notre modèle est rapporté avec CI (Code Interpreter) activé ; sans CI, le résultat est de 43,3.

  • MAXIFE : nous rapportons la précision sur les invites originales en anglais + multilingues (au total 23 paramètres).

Mis à jour

Ce contenu vous a-t-il été utile ?