💜Qwen3.5 - Anleitung zum lokalen Betrieb
Führe die neuen Qwen3.5-LLMs einschließlich Qwen3.5-397B-A17B auf deinem lokalen Gerät aus!
Qwen3.5 ist Alibabas neue Modellfamilie, einschließlich Qwen3.5-397B-A17B, einem multimodalen Reasoning-Modell mit 397 Milliarden Parametern (17 Milliarden aktiv), dessen Leistung mit Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2 vergleichbar ist. Es unterstützt 256K Kontext (erweiterbar auf 1M) in 201 Sprachen, bietet Denk- und Nicht-Denk-Modi und überzeugt bei Codierung, Vision, Agenten, Chat und Aufgaben mit langem Kontext.
Das vollständige Qwen3.5-397B-A17B-Modell ist ~807GB auf der Festplatte, und Sie können 3-Bit auf einem 192GB Mac / RAM-Gerät oder 4-Bit MXFP4 auf einem 256GB Mac: Qwen3.5-397B-A17B GGUF
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung - sodass bei 4-Bit wichtige Schichten auf 8- oder 16-Bit hochskaliert werden. Vielen Dank an Qwen für die Bereitstellung des Day-One-Zugangs für Unsloth.
⚙️ Nutzungsanleitung
Die Unsloth 4-Bit dynamische Quantisierung UD-Q4_K_XL verwendet 214GB an Festplattenspeicher – das passt direkt auf ein 256GB M3 Ultraund funktioniert auch gut in einem 1x24GB-Karte und 256GB RAM mit MoE-Offloading für 25+ Tokens/s. Die 3-Bit Quantisierung passt auf 192GB RAM und 8-Bit erfordert 512GB RAM/VRAM.
Für beste Leistung sollten VRAM + RAM zusammen der Größe der heruntergeladenen Quantisierung entsprechen. Falls nicht, funktioniert Offloading auf Festplatte/SSD mit llama.cpp, nur die Inferenz wird langsamer sein.
Empfohlene Einstellungen
Da Qwen3.5 hybrides Reasoning ist, erfordern Denk- und Nicht-Denk-Modi unterschiedliche Einstellungen:
temperature = 0.6
temperature = 0.7
top_p = 0.95
top_p = 0.8
tok_k = 20
tok_k = 20
min_p = 0
min_p = 0
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Maximales Kontextfenster:
262,144presence_penalty = 0.0 bis 2.0standardmäßig ist dies aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden; die Verwendung eines höheren Werts kann jedoch zu einer leicht verringerten Leistung führenThinking:
temperature=0.6,top_p=0.95,top_k=20,min_p=0Nicht-Denk:
temperature=0.7,top_p=0.8,top_k=20,min_p=0Angemessene Ausgabelänge:
32,768Tokens für die meisten Abfragen
Qwen3.5-397B-A17B Anleitung:
Für diese Anleitung werden wir Dynamic verwenden MXFP4_MOE das passt gut auf ein 256GB RAM / Mac-Gerät für schnelle Inferenz:
✨ In llama.cpp ausführen
Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Wenn Sie llama.cpp direkt zum Laden von Modellen können Sie das Folgende tun: (:Q3_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, dass llama.cpp um an einem bestimmten Ort zu speichern. Denk daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.
Folge dem für Denken Modus:
Folge dem für nicht-denkend Modus:
Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen MXFP4_MOE (dynamisches 4-Bit) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit dynamische Quantisierung zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren.
Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
Um Denken / Reasoning zu deaktivieren, verwenden Sie --chat-template-kwargs "{\"enable_thinking\": false}"
🦙 Llama-Server Bereitstellung & OpenAIs Completion-Bibliothek
Um Qwen3.5-397B-A17B in der Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell über:
Dann in einem neuen Terminal, nachdem Sie pip install openai, tun Sie:
🔨Tool-Aufrufe mit Qwen3.5
Siehe Tool Calling Guide für weitere Details zur Durchführung von Tool-Aufrufen. In einem neuen Terminal (wenn Sie tmux verwenden, drücken Sie STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:
Dann verwenden wir die unten stehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:
Nach dem Start von Qwen3.5 über llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für weitere Details können wir dann einige Tool-Aufrufe machen.
📊 Benchmarks
Sie können weiter unten die Benchmarks von Qwen3.5-397B-A17B in Tabellenform einsehen:

Sprach-Benchmarks
Wissen
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Denken
K2.5-1T-A32B
Qwen3.5-397B-A17B
MMLU-Pro
87.4
89.5
89.8
85.7
87.1
87.8
MMLU-Redux
95.0
95.6
95.9
92.8
94.5
94.9
SuperGPQA
67.9
70.6
74.0
67.3
69.2
70.4
C-Eval
90.5
92.2
93.4
93.7
94.0
93.0
Befolge Instruktionen
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Denken
K2.5-1T-A32B
Qwen3.5-397B-A17B
IFEval
94.8
90.9
93.5
93.4
93.9
92.6
IFBench
75.4
58.0
70.4
70.9
70.2
76.5
MultiChallenge
57.9
54.2
64.2
63.3
62.7
67.6
Langer Kontext
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Denken
K2.5-1T-A32B
Qwen3.5-397B-A17B
AA-LCR
72.7
74.0
70.7
68.7
70.0
68.7
LongBench v2
54.5
64.4
68.2
60.6
61.0
63.2
STEM
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Denken
K2.5-1T-A32B
Qwen3.5-397B-A17B
GPQA
92.4
87.0
91.9
87.4
87.6
88.4
HLE
35.5
30.8
37.5
30.2
30.1
28.7
HLE-Verified¹
43.3
38.8
48
37.6
--
37.6
Reasoning
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Denken
K2.5-1T-A32B
Qwen3.5-397B-A17B
LiveCodeBench v6
87.7
84.8
90.7
85.9
85.0
83.6
HMMT Feb 25
99.4
92.9
97.3
98.0
95.4
94.8
HMMT Nov 25
100
93.3
93.3
94.7
91.1
92.7
IMOAnswerBench
86.3
84.0
83.3
83.9
81.8
80.9
AIME26
96.7
93.3
90.6
93.3
93.3
91.3
Allgemeiner Agent
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Denken
K2.5-1T-A32B
Qwen3.5-397B-A17B
BFCL-V4
63.1
77.5
72.5
67.7
68.3
72.9
TAU2-Bench
87.1
91.6
85.4
84.6
77.0
86.7
VITA-Bench
38.2
56.3
51.6
40.9
41.9
49.7
DeepPlanning
44.6
33.9
23.3
28.7
14.5
34.3
Tool Decathlon
43.8
43.5
36.4
18.8
27.8
38.3
MCP-Mark
57.5
42.3
53.9
33.5
29.5
46.1
Such-Agent³
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Denken
K2.5-1T-A32B
Qwen3.5-397B-A17B
HLE mit Tool
45.5
43.4
45.8
49.8
50.2
48.3
BrowseComp
65.8
67.8
59.2
53.9
--/74.9
69.0/78.6
BrowseComp-zh
76.1
62.4
66.8
60.9
--
70.3
WideSearch
76.8
76.4
68.0
57.9
72.7
74.0
Seal-0
45.0
47.7
45.5
46.9
57.4
46.9
Mehrsprachigkeit
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Denken
K2.5-1T-A32B
Qwen3.5-397B-A17B
MMMLU
89.5
90.1
90.6
84.4
86.0
88.5
MMLU-ProX
83.7
85.7
87.7
78.5
82.3
84.7
NOVA-63
54.6
56.7
56.7
54.2
56.0
59.1
EINSCHLIESSEN
87.5
86.2
90.5
82.3
83.3
85.6
Global PIQA
90.9
91.6
93.2
86.0
89.3
89.8
PolyMATH
62.5
79.0
81.6
64.7
43.1
73.3
WMT24++
78.8
79.7
80.7
77.6
77.6
78.9
MAXIFE
88.4
79.2
87.5
84.0
72.8
88.2
Coding-Agent
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Denken
K2.5-1T-A32B
Qwen3.5-397B-A17B
SWE-bench Verifiziert
80.0
80.9
76.2
75.3
76.8
76.4
SWE-bench Mehrsprachig
72.0
77.5
65.0
66.7
73.0
72.0
SecCodeBench
68.7
68.6
62.4
57.5
61.3
68.3
Terminal Bench 2
54.0
59.3
54.2
22.5
50.8
52.5
Anmerkungen
HLE-Verified: eine geprüfte und überarbeitete Version von Humanity’s Last Exam (HLE), begleitet von einem transparenten, komponentenweisen Verifikationsprotokoll und einer feingliedrigen Fehlertaxonomie. Wir veröffentlichen den Datensatz als Open Source unter https://huggingface.co/datasets/skylenage/HLE-Verified.
TAU2-Bench:wir folgen der offiziellen Einrichtung mit Ausnahme der Airline-Domäne, in der alle Modelle bewertet werden, indem die im Claude Opus 4.5 System-Card vorgeschlagenen Korrekturen angewendet werden.
MCPMark: Der GitHub MCP-Server verwendet v0.30.3 von api.githubcopilot.com; Playwright-Toolantworten werden bei 32k Tokens abgeschnitten.
Such-Agent: die meisten auf unserem Modell basierenden Such-Agenten übernehmen eine einfache Kontext-Folding-Strategie (256k): Sobald die kumulative Länge der Tool-Antworten einen voreingestellten Schwellenwert erreicht, werden frühere Tool-Antworten aus der Historie entfernt, um den Kontext innerhalb der Grenzen zu halten.
BrowseComp: wir haben zwei Strategien getestet, einfaches Kontext-Folding erreichte eine Punktzahl von 69,0, während die Verwendung der gleichen Alles-Verwerfen-Strategie wie DeepSeek-V3.2 und Kimi K2.5 78,6 erreichte.
WideSearch: wir verwenden ein Kontextfenster von 256k ohne jegliches Kontextmanagement.
MMLU-ProX: wir berichten die durchschnittliche Genauigkeit über 29 Sprachen.
WMT24++: ein schwierigeres Teilset von WMT24 nach Schwierigkeitskennzeichnung und Neuausbalancierung; wir berichten die durchschnittlichen Scores über 55 Sprachen mithilfe von XCOMET-XXL.
MAXIFE: wir berichten die Genauigkeit für englische + mehrsprachige Originalprompts (insgesamt 23 Einstellungen).
Leere Zellen (--) bedeuten, dass Ergebnisse noch nicht verfügbar oder nicht anwendbar sind.
Vision-Sprach-Benchmarks
STEM und Puzzle
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
MMMU
86.7
80.7
87.2
80.6
84.3
85.0
MMMU-Pro
79.5
70.6
81.0
69.3
78.5
79.0
MathVision
83.0
74.3
86.6
74.6
84.2
88.6
Mathvista(mini)
83.1
80.0
87.9
85.8
90.1
90.3
We-Math
79.0
70.0
86.9
74.8
84.7
87.9
DynaMath
86.8
79.7
85.1
82.8
84.4
86.3
ZEROBench
9
3
10
4
9
12
ZEROBench_sub
33.2
28.4
39.0
28.4
33.5
41.0
BabyVision
34.4
14.2
49.7
22.2
36.5
52.3/43.3
Allgemeines VQA
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
RealWorldQA
83.3
77.0
83.3
81.3
81.0
83.9
MMStar
77.1
73.2
83.1
78.7
80.5
83.8
HallusionBench
65.2
64.1
68.6
66.7
69.8
71.4
MMBench (EN-DEV-v1.1)
88.2
89.2
93.7
89.7
94.2
93.7
SimpleVQA
55.8
65.7
73.2
61.3
71.2
67.1
Texterkennung und Dokumentenverständnis
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
OmniDocBench1.5
85.7
87.7
88.5
84.5
88.8
90.8
CharXiv(RQ)
82.1
68.5
81.4
66.1
77.5
80.8
MMLongBench-Doc
--
61.9
60.5
56.2
58.5
61.5
CC-OCR
70.3
76.9
79.0
81.5
79.7
82.0
AI2D_TEST
92.2
87.7
94.1
89.2
90.8
93.9
OCRBench
80.7
85.8
90.4
87.5
92.3
93.1
Räumliche Intelligenz
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
ERQA
59.8
46.8
70.5
52.5
--
67.5
CountBench
91.9
90.6
97.3
93.7
94.1
97.2
RefCOCO(durchschn.)
--
--
84.1
91.1
87.8
92.3
ODInW13
--
--
46.3
43.2
--
47.0
EmbSpatialBench
81.3
75.7
61.2
84.3
77.4
84.5
RefSpatialBench
--
--
65.5
69.9
--
73.6
LingoQA
68.8
78.8
72.8
66.8
68.2
81.6
V*
75.9
67.0
88.0
85.9
77.0
95.8/91.1
Hypersim
--
--
--
11.0
--
12.5
SUNRGBD
--
--
--
34.9
--
38.3
Nuscene
--
--
--
13.9
--
16.0
Video-Verständnis
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
VideoMME (mit Untertit.)
86
77.6
88.4
83.8
87.4
87.5
VideoMME (ohne Untertit.)
85.8
81.4
87.7
79.0
83.2
83.7
VideoMMMU
85.9
84.4
87.6
80.0
86.6
84.7
MLVU (M-Durchschn.)
85.6
81.7
83.0
83.8
85.0
86.7
MVBench
78.1
67.2
74.1
75.2
73.5
77.6
LVBench
73.7
57.3
76.2
63.6
75.9
75.5
MMVU
80.8
77.3
77.5
71.1
80.4
75.4
Visueller Agent
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
ScreenSpot Pro
--
45.7
72.7
62.0
--
65.6
OSWorld-Verified
38.2
66.3
--
38.1
63.3
62.2
AndroidWorld
--
--
--
63.7
--
66.8
Medizin
Benchmark
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
VQA-RAD
69.8
65.6
74.5
65.4
79.9
76.3
SLAKE
76.9
76.4
81.3
54.7
81.6
79.9
OM-VQA
72.9
75.5
80.3
65.4
87.4
85.1
PMC-VQA
58.9
59.9
62.3
41.2
63.3
64.2
MedXpertQA-MM
73.3
63.6
76.0
47.6
65.3
70.0
Anmerkungen
MathVision:Die Punktzahl unseres Modells wird mit einem festen Prompt bewertet, z. B. „Bitte begründe Schritt für Schritt und setze deine endgültige Antwort in
\boxed{}.” Für andere Modelle berichten wir die höhere Punktzahl zwischen Läufen mit und ohne\boxed{}Formatierung.BabyVision: Die Punktzahl unseres Modells wird mit aktiviertem CI (Code Interpreter) gemeldet; ohne CI beträgt das Ergebnis 43,3.
V*: Die Punktzahl unseres Modells wird mit aktiviertem CI (Code Interpreter) gemeldet; ohne CI beträgt das Ergebnis 91,1.
Leere Zellen (--) bedeuten, dass Ergebnisse noch nicht verfügbar oder nicht anwendbar sind.
Zuletzt aktualisiert
War das hilfreich?

