💜Qwen3.5 - Guide d'exécution locale

Exécutez les nouveaux LLM Qwen3.5, y compris Qwen3.5-397B-A17B, sur votre appareil local !

Qwen3.5 est la nouvelle famille de modèles d'Alibaba, incluant Qwen3.5-397B-A17B, un modèle multimodal de raisonnement de 397 milliards de paramètres (17 milliards actifs) avec des performances comparables à Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2. Il prend en charge contexte 256K (extensible à 1M) sur 201 langues, offre des modes de réflexion et sans réflexion, et excelle en codage, vision, agents, chat et tâches à long contexte.

Le modèle complet Qwen3.5-397B-A17B fait ~807 Go sur le disque, et vous pouvez exécuter la quantification 3 bits sur un 192 Go appareil Mac / RAM ou 4 bits MXFP4 sur un Mac 256 Go: Qwen3.5-397B-A17B GGUF

Tous les téléversements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - ainsi la quantification 4 bits a des couches importantes remontées en 8 ou 16 bits. Merci à Qwen de fournir à Unsloth un accès dès le jour zéro.

⚙️ Guide d'utilisation

La quantification dynamique 4 bits Unsloth UD-Q4_K_XL utilise 214 Go d'espace disque - cela peut se loger directement sur un 256 Go M3 Ultra, et fonctionne également bien dans un 1x24Go carte et 256 Go de RAM avec déchargement MoE pour 25+ tokens/s. La quantification3 -bit

tiendra sur une RAM de 192 Go et 8 bits nécessite 512 Go de RAM/VRAM.

Paramètres recommandés

Pour de meilleures performances, faites en sorte que la somme de votre VRAM + RAM soit égale à la taille de la quantification que vous téléchargez. Sinon, le déchargement sur disque dur / SSD fonctionnera avec llama.cpp, seule l'inférence sera plus lente.

Comme Qwen3.5 est un raisonnement hybride, les modes réflexion et sans réflexion exigent des paramètres différents :

Mode réflexion

température = 0.6

temperature = 0.7

top_p = 0.95

top_p = 0.8

Mode sans réflexion

tok_k = 20

repeat penalty = désactivé ou 1.0

Fenêtre de contexte maximale : 262,144
presence_penalty = 0.0 à 2.0 min_p = 0
--mmproj unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/mmproj-F16.gguf par défaut ceci est désactivé, mais pour réduire les répétitions, vous pouvez l'utiliser ; toutefois, utiliser une valeur plus élevée peut entraîner une légère diminution des performances, temperature=0.6, top_p=0.95, top_k=20
min_p=0 Sans réflexion :, temperature=0.7, top_p=0.95, top_k=20
Longueur de sortie adéquate: 32,768 top_p=0.8

tokens pour la plupart des requêtes

Tutoriel Qwen3.5-397B-A17B : Pour ce guide, nous utiliserons Dynamic MXFP4_MOE

✨ Exécuter dans llama.cpp

Obtenez le dernier llama.cpp sur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Si vous voulez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q3_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. Rappelez-vous que le modèle n’a qu’une longueur de contexte maximale de 200K.

Suivez ceci pour réflexion qui tient bien sur un appareil 256 Go RAM / Mac pour une inférence rapide :

mode :
./llama.cpp/llama-cli \
    export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:MXFP4_MOE \

Suivez ceci pour --min-p 0.00 qui tient bien sur un appareil 256 Go RAM / Mac pour une inférence rapide :

mode :
./llama.cpp/llama-cli \
    export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    sans réflexion
    --min-p 0.00 \

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Pour ce guide, nous utiliserons Dynamic --chat-template-kwargs "{\"enable_thinking\": false}" UD-Q4_K_XL (4 bits dynamique) ou d'autres versions quantifiées comme UD-Q2_K_XL . Nous recommandons d'utiliser au moins la quantification dynamique 2 bits

pour équilibrer taille et précision.
    hf download unsloth/Qwen3.5-397B-A17B-GGUF \
    --local-dir unsloth/Qwen3.5-397B-A17B-GGUF \

Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement GPU sur le nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n'avez qu'une inférence CPU.

./llama.cpp/llama-cli \
    --include "*MXFP4_MOE*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2bit
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:MXFP4_MOE \
    --seed 3407

--model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_MOE-00001-of-00006.gguf \ --min-p 0.00 \

🦙 Service Llama-server & bibliothèque de complétion d'OpenAI

Pour désactiver la réflexion / le raisonnement, utilisez llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

./llama.cpp/llama-server \
    --include "*MXFP4_MOE*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2bit
    Pour déployer Qwen3.5-397B-A17B en production, nous utilisons
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    sans réflexion
    --port 8001

Puis, dans un nouveau terminal, après avoir fait pip install openai, faites :

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    --alias "unsloth/Qwen3.5-397B-A17B" \
    messages = [{"role": "user", "content": "Create a Snake game."},],
)
print(completion.choices[0].message.content)

🔨model = "unsloth/Qwen3.5-397B-A17B",

Voir Tool Calling Guide pour plus de détails sur la façon de faire des appels d'outil. Dans un nouveau terminal (si vous utilisez tmux, utilisez CTRL+B+D), nous créons quelques outils comme l'addition de 2 nombres, l'exécution de code Python, l'exécution de fonctions Linux et bien plus :

import json, subprocess, random
from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
def write_a_story() -> str:
    return random.choice([
        "Il y a bien longtemps, dans une galaxie lointaine...",
        "Il y avait 2 amis qui adoraient les paresseux et le code...",
        "Le monde était en train de finir parce que chaque paresseux avait évolué pour avoir une intelligence surhumaine...",
        "À l'insu d'un ami, l'autre a accidentellement codé un programme pour faire évoluer les paresseux...",
    ])
def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        msg = "Impossible d'exécuter les commandes 'rm, sudo, dd, chmod' car elles sont dangereuses"
        print(msg); return msg
    print(f"Exécution de la commande terminal `{command}`")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
    except subprocess.CalledProcessError as e:
        return f"Échec de la commande : {e.stderr}"
def python(code: str) -> str:
    data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
}
tools = [
    {
        "type": "function",
        "function": {
            "name": "add_number",
            "description": "Additionne deux nombres.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Le premier nombre.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Le second nombre.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "multiply_number",
            "description": "Multiplie deux nombres.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Le premier nombre.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Le second nombre.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "substract_number",
            "description": "Soustrait deux nombres.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Le premier nombre.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Le second nombre.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "write_a_story",
            "description": "Écrit une histoire aléatoire.",
            "parameters": {
                "type": "object",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "terminal",
            "description": "Effectue des opérations depuis le terminal.",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {
                        "type": "string",
                        "description": "La commande que vous souhaitez lancer, ex. `ls`, `rm`, ...",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "python",
            "description": "Appelle un interpréteur Python avec du code Python qui sera exécuté.",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "Le code Python à exécuter",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonctions et appelleront le point de terminaison OpenAI pour n'importe quel modèle :

from openai import OpenAI
def unsloth_inference(
    messages,
    Appel d'outil avec Qwen3.5
    top_p = 0.95,
    temperature = 0.6,
    top_k = 20,
    repetition_penalty = 1.0,
):
    messages = messages.copy()
    openai_client = OpenAI(
        base_url = "http://127.0.0.1:8001/v1",
        api_key = "sk-no-key-required",
    )
    model_name = next(iter(openai_client.models.list())).id
    print(f"Utilisation du modèle = {model_name}")
    has_tool_calls = True
    original_messages_len = len(messages)
    while has_tool_calls:
        print(f"Messages actuels = {messages}")
        response = openai_client.chat.completions.create(
            model = model_name,
            messages = messages,
            temperature = temperature,
            top_p = top_p,
            tools = tools if tools else None,
            tool_choice = "auto" if tools else None,
            extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
        )
        tool_calls = response.choices[0].message.tool_calls or []
        content = response.choices[0].message.content or ""
        tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
        messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
        for tool_call in tool_calls:
            fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
            out = MAP_FN[fx](**json.loads(args))
            messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
        else:
            has_tool_calls = False
    return messages

min_p = 0.00, llama-server comme dans Qwen3.5 ou voir Tool Calling Guide pour plus de détails, nous pouvons ensuite effectuer quelques appels d'outils.

📊 Benchmarks

Après le lancement de Qwen3.5 via

Vous pouvez voir plus bas les benchmarks de Qwen3.5-397B-A17B au format tableau :

Benchmarks linguistiques

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Qwen3.5-397B-A17B

87.4

89.5

89.8

85.7

87.1

87.8

MMLU-Pro

95.0

95.6

95.9

92.8

94.5

94.9

MMLU-Redux

67.9

70.6

74.0

67.3

69.2

70.4

SuperGPQA

90.5

92.2

93.4

93.7

94.0

93.0

C-Eval

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Suivi d'instructions

94.8

90.9

93.5

93.4

93.9

92.6

IFEval

75.4

58.0

70.4

70.9

70.2

76.5

IFBench

57.9

54.2

64.2

63.3

62.7

67.6

MultiChallenge

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Long Contexte

72.7

74.0

70.7

68.7

70.0

68.7

AA-LCR

54.5

64.4

68.2

60.6

61.0

63.2

LongBench v2

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

STEM

92.4

87.0

91.9

87.4

87.6

88.4

HLE

35.5

30.8

37.5

30.2

30.1

28.7

GPQA

43.3

38.8

37.6

HLE-Verified¹

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Raisonnement

87.7

84.8

90.7

85.9

85.0

83.6

LiveCodeBench v6

99.4

92.9

97.3

98.0

95.4

94.8

HMMT Feb 25

100

93.3

94.7

91.1

92.7

IMOAnswerBench

86.3

84.0

83.3

83.9

81.8

80.9

HMMT Nov 25

96.7

93.3

90.6

93.3

91.3

AIME26

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Agent général

63.1

77.5

72.5

67.7

68.3

72.9

BFCL-V4

87.1

91.6

85.4

84.6

77.0

86.7

TAU2-Bench

38.2

56.3

51.6

40.9

41.9

49.7

VITA-Bench

44.6

33.9

23.3

28.7

14.5

34.3

DeepPlanning

43.8

43.5

36.4

18.8

27.8

38.3

Tool Decathlon

57.5

42.3

53.9

33.5

29.5

46.1

MCP-Mark

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Agent de recherche³

45.5

43.4

45.8

49.8

50.2

48.3

BrowseComp

65.8

67.8

59.2

53.9

--/74.9

69.0/78.6

HLE avec outil

76.1

62.4

66.8

60.9

70.3

BrowseComp-zh

76.8

76.4

68.0

57.9

72.7

74.0

WideSearch

45.0

47.7

45.5

46.9

57.4

46.9

Seal-0

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

Multilinguisme

89.5

90.1

90.6

84.4

86.0

88.5

MMMLU

83.7

85.7

87.7

78.5

82.3

84.7

MMLU-ProX

54.6

56.7

54.2

56.0

59.1

NOVA-63

87.5

86.2

90.5

82.3

83.3

85.6

INCLURE

90.9

91.6

93.2

86.0

89.3

89.8

PIQA Global

62.5

79.0

81.6

64.7

43.1

73.3

PolyMATH

78.8

79.7

80.7

77.6

78.9

WMT24++

88.4

79.2

87.5

84.0

72.8

88.2

MAXIFE

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Reflection

K2.5-1T-A32B

SWE-bench Vérifié

80.0

80.9

76.2

75.3

76.8

76.4

SWE-bench Multilingue

72.0

77.5

65.0

66.7

73.0

72.0

Agent de codage

68.7

68.6

62.4

57.5

61.3

68.3

SecCodeBench

54.0

59.3

54.2

22.5

50.8

52.5

Terminal Bench 2

Notes HLE-Verified : une version vérifiée et révisée de l'Humanity’s Last Exam (HLE), accompagnée d'un protocole de vérification transparent, composé, et d'une taxonomie d'erreurs détaillée. Nous rendons public le jeu de données à.
https://huggingface.co/datasets/skylenage/HLE-Verified
TAU2-Bench : nous suivons la configuration officielle sauf pour le domaine des compagnies aériennes, où tous les modèles sont évalués en appliquant les corrections proposées dans la fiche système de Claude Opus 4.5.
MCPMark : le serveur MCP GitHub utilise la v0.30.3 de api.githubcopilot.com ; les réponses de l'outil Playwright sont tronquées à 32k tokens.
Agent de recherche : la plupart des agents de recherche construits sur notre modèle adoptent une stratégie simple de pliage de contexte (256k) : une fois que la longueur cumulative des réponses d'outil atteint un seuil prédéfini, les réponses d'outil antérieures sont supprimées de l'historique pour garder le contexte dans les limites.
BrowseComp : nous avons testé deux stratégies, le simple pliage de contexte a obtenu un score de 69,0, tandis que l'utilisation de la même stratégie de tout rejeter que DeepSeek-V3.2 et Kimi K2.5 a obtenu 78,6.
WideSearch : nous utilisons une fenêtre de contexte de 256k sans aucune gestion du contexte.
MMLU-ProX : nous rapportons la précision moyenne sur 29 langues.
WMT24++ : un sous-ensemble plus difficile de WMT24 après étiquetage de difficulté et rééquilibrage ; nous rapportons les scores moyens sur 55 langues en utilisant XCOMET-XXL.
MAXIFE : nous rapportons la précision sur les invites originales en anglais + multilingues (au total 23 paramètres).

Les cellules vides (--) indiquent des scores pas encore disponibles ou non applicables.

Benchmarks Vision-Langage

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Qwen3-VL-235B-A22B

86.7

80.7

87.2

80.6

84.3

85.0

MMMU

79.5

70.6

81.0

69.3

78.5

79.0

MMMU-Pro

83.0

74.3

86.6

74.6

84.2

88.6

MathVision

83.1

80.0

87.9

85.8

90.1

90.3

Mathvista(mini)

79.0

70.0

86.9

74.8

84.7

87.9

We-Math

86.8

79.7

85.1

82.8

84.4

86.3

DynaMath

ZEROBench

33.2

28.4

39.0

28.4

33.5

41.0

ZEROBench_sub

34.4

14.2

49.7

22.2

36.5

52.3/43.3

BabyVision

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

RealWorldQA

83.3

77.0

83.3

81.3

81.0

83.9

MMStar

77.1

73.2

83.1

78.7

80.5

83.8

VQA général

65.2

64.1

68.6

66.7

69.8

71.4

HallusionBench

88.2

89.2

93.7

89.7

94.2

93.7

MMBench (EN-DEV-v1.1)

55.8

65.7

73.2

61.3

71.2

67.1

SimpleVQA

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Reconnaissance de texte et compréhension de documents

85.7

87.7

88.5

84.5

88.8

90.8

OmniDocBench1.5

82.1

68.5

81.4

66.1

77.5

80.8

CharXiv(RQ)

61.9

60.5

56.2

58.5

61.5

MMLongBench-Doc

70.3

76.9

79.0

81.5

79.7

82.0

CC-OCR

92.2

87.7

94.1

89.2

90.8

93.9

AI2D_TEST

80.7

85.8

90.4

87.5

92.3

93.1

OCRBench

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Intelligence spatiale

59.8

46.8

70.5

52.5

67.5

ERQA

91.9

90.6

97.3

93.7

94.1

97.2

CountBench

84.1

91.1

87.8

92.3

RefCOCO(moy)

46.3

43.2

47.0

ODInW13

81.3

75.7

61.2

84.3

77.4

84.5

EmbSpatialBench

65.5

69.9

73.6

RefSpatialBench

68.8

78.8

72.8

66.8

68.2

81.6

LingoQA

75.9

67.0

88.0

85.9

77.0

95.8/91.1

11.0

12.5

Hypersim

34.9

38.3

SUNRGBD

13.9

16.0

Nuscene

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Compréhension vidéo

77.6

88.4

83.8

87.4

87.5

VideoMME (avec sous.)

85.8

81.4

87.7

79.0

83.2

83.7

VideoMME (sans sous.)

85.9

84.4

87.6

80.0

86.6

84.7

VideoMMMU

85.6

81.7

83.0

83.8

85.0

86.7

MLVU (M-Avg)

78.1

67.2

74.1

75.2

73.5

77.6

MVBench

73.7

57.3

76.2

63.6

75.9

75.5

LVBench

80.8

77.3

77.5

71.1

80.4

75.4

MMVU

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Agent visuel

45.7

72.7

62.0

65.6

ScreenSpot Pro

38.2

66.3

38.1

63.3

62.2

OSWorld-Verified

63.7

66.8

AndroidWorld

Benchmark

Connaissances

GPT5.2

Claude 4.5 Opus

STEM et Puzzle

Qwen3-Max-Reflection

K2.5-1T-A32B

Médical

69.8

65.6

74.5

65.4

79.9

76.3

VQA-RAD

76.9

76.4

81.3

54.7

81.6

79.9

SLAKE

72.9

75.5

80.3

65.4

87.4

85.1

OM-VQA

58.9

59.9

62.3

41.2

63.3

64.2

PMC-VQA

73.3

63.6

76.0

47.6

65.3

70.0

Terminal Bench 2

MedXpertQA-MM MathVision : le score de notre modèle est évalué en utilisant une invite fixe, par ex. « Veuillez raisonner pas à pas, et mettre votre réponse finale entre\boxed{} MathVision : le score de notre modèle est évalué en utilisant une invite fixe, par ex. « Veuillez raisonner pas à pas, et mettre votre réponse finale entre ». Pour les autres modèles, nous rapportons le score le plus élevé entre les exécutions avec et sans la
mise en forme.
BabyVision : le score de notre modèle est rapporté avec CI (Code Interpreter) activé ; sans CI, le résultat est de 43,3.
MAXIFE : nous rapportons la précision sur les invites originales en anglais + multilingues (au total 23 paramètres).

PrécédentUltra Long Context RL SuivantGLM-5

Mis à jour il y a 1 jour

Ce contenu vous a-t-il été utile ?

hashtag⚙️ Guide d'utilisation

hashtagParamètres recommandés

hashtagtokens pour la plupart des requêtes

hashtag✨ Exécuter dans llama.cpp

hashtag🦙 Service Llama-server & bibliothèque de complétion d'OpenAI

hashtag🔨model = "unsloth/Qwen3.5-397B-A17B",

hashtag📊 Benchmarks

hashtagVous pouvez voir plus bas les benchmarks de Qwen3.5-397B-A17B au format tableau :

hashtagBenchmarks linguistiques

hashtagC-Eval

hashtagMultiChallenge

hashtagLongBench v2

hashtagHLE-Verified¹

hashtagAIME26

hashtagMCP-Mark

hashtagSeal-0

hashtagMAXIFE

hashtagLes cellules vides (--) indiquent des scores pas encore disponibles ou non applicables.

hashtagBenchmarks Vision-Langage

hashtagBabyVision

hashtagSimpleVQA

hashtagOCRBench

hashtagNuscene

hashtagMMVU

hashtagAndroidWorld

⚙️ Guide d'utilisation

Paramètres recommandés

tokens pour la plupart des requêtes

✨ Exécuter dans llama.cpp

🦙 Service Llama-server & bibliothèque de complétion d'OpenAI

🔨model = "unsloth/Qwen3.5-397B-A17B",

📊 Benchmarks

Vous pouvez voir plus bas les benchmarks de Qwen3.5-397B-A17B au format tableau :

Benchmarks linguistiques

C-Eval

MultiChallenge

LongBench v2

HLE-Verified¹

AIME26

MCP-Mark

Seal-0

MAXIFE

Les cellules vides (--) indiquent des scores pas encore disponibles ou non applicables.

Benchmarks Vision-Langage

BabyVision

SimpleVQA

OCRBench

Nuscene

MMVU

AndroidWorld