💜Qwen3.5 - Anleitung zum lokalen Betrieb

Führe die neuen Qwen3.5-LLMs einschließlich Qwen3.5-397B-A17B auf deinem lokalen Gerät aus!

Qwen3.5 ist Alibabas neue Modellfamilie, einschließlich Qwen3.5-397B-A17B, einem multimodalen Reasoning-Modell mit 397 Milliarden Parametern (17 Milliarden aktiv), dessen Leistung mit Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2 vergleichbar ist. Es unterstützt 256K Kontext (erweiterbar auf 1M) in 201 Sprachen, bietet Denk- und Nicht-Denk-Modi und überzeugt bei Codierung, Vision, Agenten, Chat und Aufgaben mit langem Kontext.

Das vollständige Qwen3.5-397B-A17B-Modell ist ~807GB auf der Festplatte, und Sie können 3-Bit auf einem 192GB Mac / RAM-Gerät oder 4-Bit MXFP4 auf einem 256GB Mac: Qwen3.5-397B-A17B GGUF

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung - sodass bei 4-Bit wichtige Schichten auf 8- oder 16-Bit hochskaliert werden. Vielen Dank an Qwen für die Bereitstellung des Day-One-Zugangs für Unsloth.

⚙️ Nutzungsanleitung

Die Unsloth 4-Bit dynamische Quantisierung UD-Q4_K_XL verwendet 214GB an Festplattenspeicher – das passt direkt auf ein 256GB M3 Ultraund funktioniert auch gut in einem 1x24GB-Karte und 256GB RAM mit MoE-Offloading für 25+ Tokens/s. Die 3-Bit Quantisierung passt auf 192GB RAM und 8-Bit erfordert 512GB RAM/VRAM.

Für beste Leistung sollten VRAM + RAM zusammen der Größe der heruntergeladenen Quantisierung entsprechen. Falls nicht, funktioniert Offloading auf Festplatte/SSD mit llama.cpp, nur die Inferenz wird langsamer sein.

Empfohlene Einstellungen

Da Qwen3.5 hybrides Reasoning ist, erfordern Denk- und Nicht-Denk-Modi unterschiedliche Einstellungen:

Denkmodus

Nicht-Denk-Modus

temperature = 0.6

temperature = 0.7

top_p = 0.95

top_p = 0.8

tok_k = 20

min_p = 0

repeat penalty = deaktiviert oder 1.0

Maximales Kontextfenster: 262,144
presence_penalty = 0.0 bis 2.0 standardmäßig ist dies aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden; die Verwendung eines höheren Werts kann jedoch zu einer leicht verringerten Leistung führen
Thinking: temperature=0.6, top_p=0.95, top_k=20, min_p=0
Nicht-Denk: temperature=0.7, top_p=0.8, top_k=20, min_p=0
Angemessene Ausgabelänge: 32,768 Tokens für die meisten Abfragen

Qwen3.5-397B-A17B Anleitung:

Für diese Anleitung werden wir Dynamic verwenden MXFP4_MOE das passt gut auf ein 256GB RAM / Mac-Gerät für schnelle Inferenz:

✨ In llama.cpp ausführen

Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Wenn Sie llama.cpp direkt zum Laden von Modellen können Sie das Folgende tun: (:Q3_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, dass llama.cpp um an einem bestimmten Ort zu speichern. Denk daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folge dem für Denken Modus:

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:MXFP4_MOE \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Folge dem für nicht-denkend Modus:

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:MXFP4_MOE \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs "{\"enable_thinking\": false}"

Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen MXFP4_MOE (dynamisches 4-Bit) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit dynamische Quantisierung zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren.

hf download unsloth/Qwen3.5-397B-A17B-GGUF \
    --local-dir unsloth/Qwen3.5-397B-A17B-GGUF \
    --include "*MXFP4_MOE*" # Verwenden Sie "*UD-Q2_K_XL*" für Dynamic 2bit

Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_MOE-00001-of-00006.gguf \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00
    --seed 3407

Um Denken / Reasoning zu deaktivieren, verwenden Sie --chat-template-kwargs "{\"enable_thinking\": false}"

🦙 Llama-Server Bereitstellung & OpenAIs Completion-Bibliothek

Um Qwen3.5-397B-A17B in der Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell über:

./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_MOE-00001-of-00006.gguf \
    --alias "unsloth/Qwen3.5-397B-A17B" \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001

Dann in einem neuen Terminal, nachdem Sie pip install openai, tun Sie:

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.5-397B-A17B",
    messages = [{"role": "user", "content": "Erstelle ein Snake-Spiel."},],
)
print(completion.choices[0].message.content)

🔨Tool-Aufrufe mit Qwen3.5

Siehe Tool Calling Guide für weitere Details zur Durchführung von Tool-Aufrufen. In einem neuen Terminal (wenn Sie tmux verwenden, drücken Sie STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:

import json, subprocess, random
from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
def write_a_story() -> str:
    return random.choice([
        "Vor langer Zeit in einer weit, weit entfernten Galaxie...",
        "Es gab zwei Freunde, die Faultiere und Code liebten...",
        "Die Welt ging zu Ende, weil jedes Faultier übermenschliche Intelligenz entwickelte...",
        "Unbekannt einem Freund, hatte der andere versehentlich ein Programm geschrieben, um Faultiere zu entwickeln...",
    ])
def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        msg = "Kann die Befehle 'rm, sudo, dd, chmod' nicht ausführen, da sie gefährlich sind"
        print(msg); return msg
    print(f"Führe Terminalbefehl `{command}` aus")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
    except subprocess.CalledProcessError as e:
        return f"Befehl fehlgeschlagen: {e.stderr}"
def python(code: str) -> str:
    data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
}
tools = [
    {
        "type": "function",
        "function": {
            "name": "add_number",
            "description": "Addiere zwei Zahlen.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Die erste Zahl.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Die zweite Zahl.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "multiply_number",
            "description": "Multipliziert zwei Zahlen.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Die erste Zahl.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Die zweite Zahl.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "substract_number",
            "description": "Subtrahiert zwei Zahlen.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Die erste Zahl.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Die zweite Zahl.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "write_a_story",
            "description": "Schreibt eine zufällige Geschichte.",
            "parameters": {
                "type": "object",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "terminal",
            "description": "Führt Operationen vom Terminal aus.",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {
                        "type": "string",
                        "description": "Der Befehl, den Sie ausführen möchten, z. B. `ls`, `rm`, ...",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "python",
            "description": "Ruft einen Python-Interpreter mit etwas Python-Code auf, der ausgeführt wird.",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "Der auszuführende Python-Code",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

Dann verwenden wir die unten stehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:

from openai import OpenAI
def unsloth_inference(
    messages,
    temperature = 0.6,
    top_p = 0.95,
    top_k = 20,
    min_p = 0.00,
    repetition_penalty = 1.0,
):
    messages = messages.copy()
    openai_client = OpenAI(
        base_url = "http://127.0.0.1:8001/v1",
        api_key = "sk-no-key-required",
    )
    model_name = next(iter(openai_client.models.list())).id
    print(f"Verwende Modell = {model_name}")
    has_tool_calls = True
    original_messages_len = len(messages)
    while has_tool_calls:
        print(f"Aktuelle Nachrichten = {messages}")
        response = openai_client.chat.completions.create(
            model = model_name,
            messages = messages,
            temperature = temperature,
            top_p = top_p,
            tools = tools if tools else None,
            tool_choice = "auto" if tools else None,
            extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
        )
        tool_calls = response.choices[0].message.tool_calls or []
        content = response.choices[0].message.content or ""
        tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
        messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
        for tool_call in tool_calls:
            fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
            out = MAP_FN[fx](**json.loads(args))
            messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
        else:
            has_tool_calls = False
    return messages

Nach dem Start von Qwen3.5 über llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für weitere Details können wir dann einige Tool-Aufrufe machen.

📊 Benchmarks

Sie können weiter unten die Benchmarks von Qwen3.5-397B-A17B in Tabellenform einsehen:

Sprach-Benchmarks

Wissen

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMLU-Pro

87.4

89.5

89.8

85.7

87.1

87.8

MMLU-Redux

95.0

95.6

95.9

92.8

94.5

94.9

SuperGPQA

67.9

70.6

74.0

67.3

69.2

70.4

C-Eval

90.5

92.2

93.4

93.7

94.0

93.0

Befolge Instruktionen

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

IFEval

94.8

90.9

93.5

93.4

93.9

92.6

IFBench

75.4

58.0

70.4

70.9

70.2

76.5

MultiChallenge

57.9

54.2

64.2

63.3

62.7

67.6

Langer Kontext

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

AA-LCR

72.7

74.0

70.7

68.7

70.0

68.7

LongBench v2

54.5

64.4

68.2

60.6

61.0

63.2

STEM

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

GPQA

92.4

87.0

91.9

87.4

87.6

88.4

HLE

35.5

30.8

37.5

30.2

30.1

28.7

HLE-Verified¹

43.3

38.8

37.6

Reasoning

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

LiveCodeBench v6

87.7

84.8

90.7

85.9

85.0

83.6

HMMT Feb 25

99.4

92.9

97.3

98.0

95.4

94.8

HMMT Nov 25

100

93.3

94.7

91.1

92.7

IMOAnswerBench

86.3

84.0

83.3

83.9

81.8

80.9

AIME26

96.7

93.3

90.6

93.3

91.3

Allgemeiner Agent

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

BFCL-V4

63.1

77.5

72.5

67.7

68.3

72.9

TAU2-Bench

87.1

91.6

85.4

84.6

77.0

86.7

VITA-Bench

38.2

56.3

51.6

40.9

41.9

49.7

DeepPlanning

44.6

33.9

23.3

28.7

14.5

34.3

Tool Decathlon

43.8

43.5

36.4

18.8

27.8

38.3

MCP-Mark

57.5

42.3

53.9

33.5

29.5

46.1

Such-Agent³

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

HLE mit Tool

45.5

43.4

45.8

49.8

50.2

48.3

BrowseComp

65.8

67.8

59.2

53.9

--/74.9

69.0/78.6

BrowseComp-zh

76.1

62.4

66.8

60.9

70.3

WideSearch

76.8

76.4

68.0

57.9

72.7

74.0

Seal-0

45.0

47.7

45.5

46.9

57.4

46.9

Mehrsprachigkeit

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMMLU

89.5

90.1

90.6

84.4

86.0

88.5

MMLU-ProX

83.7

85.7

87.7

78.5

82.3

84.7

NOVA-63

54.6

56.7

54.2

56.0

59.1

EINSCHLIESSEN

87.5

86.2

90.5

82.3

83.3

85.6

Global PIQA

90.9

91.6

93.2

86.0

89.3

89.8

PolyMATH

62.5

79.0

81.6

64.7

43.1

73.3

WMT24++

78.8

79.7

80.7

77.6

78.9

MAXIFE

88.4

79.2

87.5

84.0

72.8

88.2

Coding-Agent

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

SWE-bench Verifiziert

80.0

80.9

76.2

75.3

76.8

76.4

SWE-bench Mehrsprachig

72.0

77.5

65.0

66.7

73.0

72.0

SecCodeBench

68.7

68.6

62.4

57.5

61.3

68.3

Terminal Bench 2

54.0

59.3

54.2

22.5

50.8

52.5

Anmerkungen

HLE-Verified: eine geprüfte und überarbeitete Version von Humanity’s Last Exam (HLE), begleitet von einem transparenten, komponentenweisen Verifikationsprotokoll und einer feingliedrigen Fehlertaxonomie. Wir veröffentlichen den Datensatz als Open Source unter https://huggingface.co/datasets/skylenage/HLE-Verified.
TAU2-Bench：wir folgen der offiziellen Einrichtung mit Ausnahme der Airline-Domäne, in der alle Modelle bewertet werden, indem die im Claude Opus 4.5 System-Card vorgeschlagenen Korrekturen angewendet werden.
MCPMark: Der GitHub MCP-Server verwendet v0.30.3 von api.githubcopilot.com; Playwright-Toolantworten werden bei 32k Tokens abgeschnitten.
Such-Agent: die meisten auf unserem Modell basierenden Such-Agenten übernehmen eine einfache Kontext-Folding-Strategie (256k): Sobald die kumulative Länge der Tool-Antworten einen voreingestellten Schwellenwert erreicht, werden frühere Tool-Antworten aus der Historie entfernt, um den Kontext innerhalb der Grenzen zu halten.
BrowseComp: wir haben zwei Strategien getestet, einfaches Kontext-Folding erreichte eine Punktzahl von 69,0, während die Verwendung der gleichen Alles-Verwerfen-Strategie wie DeepSeek-V3.2 und Kimi K2.5 78,6 erreichte.
WideSearch: wir verwenden ein Kontextfenster von 256k ohne jegliches Kontextmanagement.
MMLU-ProX: wir berichten die durchschnittliche Genauigkeit über 29 Sprachen.
WMT24++: ein schwierigeres Teilset von WMT24 nach Schwierigkeitskennzeichnung und Neuausbalancierung; wir berichten die durchschnittlichen Scores über 55 Sprachen mithilfe von XCOMET-XXL.
MAXIFE: wir berichten die Genauigkeit für englische + mehrsprachige Originalprompts (insgesamt 23 Einstellungen).
Leere Zellen (--) bedeuten, dass Ergebnisse noch nicht verfügbar oder nicht anwendbar sind.

Vision-Sprach-Benchmarks

STEM und Puzzle

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMMU

86.7

80.7

87.2

80.6

84.3

85.0

MMMU-Pro

79.5

70.6

81.0

69.3

78.5

79.0

MathVision

83.0

74.3

86.6

74.6

84.2

88.6

Mathvista(mini)

83.1

80.0

87.9

85.8

90.1

90.3

We-Math

79.0

70.0

86.9

74.8

84.7

87.9

DynaMath

86.8

79.7

85.1

82.8

84.4

86.3

ZEROBench

ZEROBench_sub

33.2

28.4

39.0

28.4

33.5

41.0

BabyVision

34.4

14.2

49.7

22.2

36.5

52.3/43.3

Allgemeines VQA

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

RealWorldQA

83.3

77.0

83.3

81.3

81.0

83.9

MMStar

77.1

73.2

83.1

78.7

80.5

83.8

HallusionBench

65.2

64.1

68.6

66.7

69.8

71.4

MMBench (EN-DEV-v1.1)

88.2

89.2

93.7

89.7

94.2

93.7

SimpleVQA

55.8

65.7

73.2

61.3

71.2

67.1

Texterkennung und Dokumentenverständnis

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

OmniDocBench1.5

85.7

87.7

88.5

84.5

88.8

90.8

CharXiv(RQ)

82.1

68.5

81.4

66.1

77.5

80.8

MMLongBench-Doc

61.9

60.5

56.2

58.5

61.5

CC-OCR

70.3

76.9

79.0

81.5

79.7

82.0

AI2D_TEST

92.2

87.7

94.1

89.2

90.8

93.9

OCRBench

80.7

85.8

90.4

87.5

92.3

93.1

Räumliche Intelligenz

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

ERQA

59.8

46.8

70.5

52.5

67.5

CountBench

91.9

90.6

97.3

93.7

94.1

97.2

RefCOCO(durchschn.)

84.1

91.1

87.8

92.3

ODInW13

46.3

43.2

47.0

EmbSpatialBench

81.3

75.7

61.2

84.3

77.4

84.5

RefSpatialBench

65.5

69.9

73.6

LingoQA

68.8

78.8

72.8

66.8

68.2

81.6

75.9

67.0

88.0

85.9

77.0

95.8/91.1

Hypersim

11.0

12.5

SUNRGBD

34.9

38.3

Nuscene

13.9

16.0

Video-Verständnis

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

VideoMME (mit Untertit.)

77.6

88.4

83.8

87.4

87.5

VideoMME (ohne Untertit.)

85.8

81.4

87.7

79.0

83.2

83.7

VideoMMMU

85.9

84.4

87.6

80.0

86.6

84.7

MLVU (M-Durchschn.)

85.6

81.7

83.0

83.8

85.0

86.7

MVBench

78.1

67.2

74.1

75.2

73.5

77.6

LVBench

73.7

57.3

76.2

63.6

75.9

75.5

MMVU

80.8

77.3

77.5

71.1

80.4

75.4

Visueller Agent

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

ScreenSpot Pro

45.7

72.7

62.0

65.6

OSWorld-Verified

38.2

66.3

38.1

63.3

62.2

AndroidWorld

63.7

66.8

Medizin

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

VQA-RAD

69.8

65.6

74.5

65.4

79.9

76.3

SLAKE

76.9

76.4

81.3

54.7

81.6

79.9

OM-VQA

72.9

75.5

80.3

65.4

87.4

85.1

PMC-VQA

58.9

59.9

62.3

41.2

63.3

64.2

MedXpertQA-MM

73.3

63.6

76.0

47.6

65.3

70.0

Anmerkungen

MathVision：Die Punktzahl unseres Modells wird mit einem festen Prompt bewertet, z. B. „Bitte begründe Schritt für Schritt und setze deine endgültige Antwort in \boxed{}.” Für andere Modelle berichten wir die höhere Punktzahl zwischen Läufen mit und ohne \boxed{} Formatierung.
BabyVision: Die Punktzahl unseres Modells wird mit aktiviertem CI (Code Interpreter) gemeldet; ohne CI beträgt das Ergebnis 43,3.
V*: Die Punktzahl unseres Modells wird mit aktiviertem CI (Code Interpreter) gemeldet; ohne CI beträgt das Ergebnis 91,1.
Leere Zellen (--) bedeuten, dass Ergebnisse noch nicht verfügbar oder nicht anwendbar sind.

VorherigeUltra Long Context RL NächsteGLM-5

Zuletzt aktualisiert vor 1 Tag

War das hilfreich?

hashtag⚙️ Nutzungsanleitung

hashtagEmpfohlene Einstellungen

hashtagQwen3.5-397B-A17B Anleitung:

hashtag✨ In llama.cpp ausführen

hashtag🦙 Llama-Server Bereitstellung & OpenAIs Completion-Bibliothek

hashtag🔨Tool-Aufrufe mit Qwen3.5

hashtag📊 Benchmarks

hashtagSprach-Benchmarks

hashtagWissen

hashtagBefolge Instruktionen

hashtagLanger Kontext

hashtagSTEM

hashtagReasoning

hashtagAllgemeiner Agent

hashtagSuch-Agent³

hashtagMehrsprachigkeit

hashtagCoding-Agent

hashtagVision-Sprach-Benchmarks

hashtagSTEM und Puzzle

hashtagAllgemeines VQA

hashtagTexterkennung und Dokumentenverständnis

hashtagRäumliche Intelligenz

hashtagVideo-Verständnis

hashtagVisueller Agent

hashtagMedizin

⚙️ Nutzungsanleitung

Empfohlene Einstellungen

Qwen3.5-397B-A17B Anleitung:

✨ In llama.cpp ausführen

🦙 Llama-Server Bereitstellung & OpenAIs Completion-Bibliothek

🔨Tool-Aufrufe mit Qwen3.5

📊 Benchmarks

Sprach-Benchmarks

Wissen

Befolge Instruktionen

Langer Kontext

STEM

Reasoning

Allgemeiner Agent

Such-Agent³

Mehrsprachigkeit

Coding-Agent

Vision-Sprach-Benchmarks

STEM und Puzzle

Allgemeines VQA

Texterkennung und Dokumentenverständnis

Räumliche Intelligenz

Video-Verständnis

Visueller Agent

Medizin