💜Qwen3.5 - Anleitung zum lokalen Betrieb

Führe die neuen Qwen3.5-LLMs einschließlich Qwen3.5-397B-A17B auf deinem lokalen Gerät aus!

Qwen3.5 ist Alibabas neue Modellfamilie, einschließlich Qwen3.5-397B-A17B, einem multimodalen Reasoning-Modell mit 397 Milliarden Parametern (17 Milliarden aktiv), dessen Leistung mit Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2 vergleichbar ist. Es unterstützt 256K Kontext (erweiterbar auf 1M) in 201 Sprachen, bietet Denk- und Nicht-Denk-Modi und überzeugt bei Codierung, Vision, Agenten, Chat und Aufgaben mit langem Kontext.

Das vollständige Qwen3.5-397B-A17B-Modell ist ~807GB auf der Festplatte, und Sie können 3-Bit auf einem 192GB Mac / RAM-Gerät oder 4-Bit MXFP4 auf einem 256GB Mac: Qwen3.5-397B-A17B GGUFarrow-up-right

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung - sodass bei 4-Bit wichtige Schichten auf 8- oder 16-Bit hochskaliert werden. Vielen Dank an Qwen für die Bereitstellung des Day-One-Zugangs für Unsloth.

⚙️ Nutzungsanleitung

Die Unsloth 4-Bit dynamische Quantisierung UD-Q4_K_XL verwendet 214GB an Festplattenspeicher – das passt direkt auf ein 256GB M3 Ultraund funktioniert auch gut in einem 1x24GB-Karte und 256GB RAM mit MoE-Offloading für 25+ Tokens/s. Die 3-Bit Quantisierung passt auf 192GB RAM und 8-Bit erfordert 512GB RAM/VRAM.

circle-check

Empfohlene Einstellungen

Da Qwen3.5 hybrides Reasoning ist, erfordern Denk- und Nicht-Denk-Modi unterschiedliche Einstellungen:

Denkmodus
Nicht-Denk-Modus

temperature = 0.6

temperature = 0.7

top_p = 0.95

top_p = 0.8

tok_k = 20

tok_k = 20

min_p = 0

min_p = 0

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

  • Maximales Kontextfenster: 262,144

  • presence_penalty = 0.0 bis 2.0 standardmäßig ist dies aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden; die Verwendung eines höheren Werts kann jedoch zu einer leicht verringerten Leistung führen

  • Thinking: temperature=0.6, top_p=0.95, top_k=20, min_p=0

  • Nicht-Denk: temperature=0.7, top_p=0.8, top_k=20, min_p=0

  • Angemessene Ausgabelänge: 32,768 Tokens für die meisten Abfragen

Qwen3.5-397B-A17B Anleitung:

Für diese Anleitung werden wir Dynamic verwenden MXFP4_MOEarrow-up-right das passt gut auf ein 256GB RAM / Mac-Gerät für schnelle Inferenz:

✨ In llama.cpp ausführen

1

Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

2

Wenn Sie llama.cpp direkt zum Laden von Modellen können Sie das Folgende tun: (:Q3_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, dass llama.cpp um an einem bestimmten Ort zu speichern. Denk daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folge dem für Denken Modus:

Folge dem für nicht-denkend Modus:

3

Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen MXFP4_MOE (dynamisches 4-Bit) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit dynamische Quantisierung zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren.

4

Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

circle-info

Um Denken / Reasoning zu deaktivieren, verwenden Sie --chat-template-kwargs "{\"enable_thinking\": false}"

🦙 Llama-Server Bereitstellung & OpenAIs Completion-Bibliothek

Um Qwen3.5-397B-A17B in der Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell über:

Dann in einem neuen Terminal, nachdem Sie pip install openai, tun Sie:

🔨Tool-Aufrufe mit Qwen3.5

Siehe Tool Calling Guide für weitere Details zur Durchführung von Tool-Aufrufen. In einem neuen Terminal (wenn Sie tmux verwenden, drücken Sie STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:

Dann verwenden wir die unten stehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:

Nach dem Start von Qwen3.5 über llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für weitere Details können wir dann einige Tool-Aufrufe machen.

📊 Benchmarks

Sie können weiter unten die Benchmarks von Qwen3.5-397B-A17B in Tabellenform einsehen:

Sprach-Benchmarks

Wissen

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMLU-Pro

87.4

89.5

89.8

85.7

87.1

87.8

MMLU-Redux

95.0

95.6

95.9

92.8

94.5

94.9

SuperGPQA

67.9

70.6

74.0

67.3

69.2

70.4

C-Eval

90.5

92.2

93.4

93.7

94.0

93.0

Befolge Instruktionen

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

IFEval

94.8

90.9

93.5

93.4

93.9

92.6

IFBench

75.4

58.0

70.4

70.9

70.2

76.5

MultiChallenge

57.9

54.2

64.2

63.3

62.7

67.6

Langer Kontext

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

AA-LCR

72.7

74.0

70.7

68.7

70.0

68.7

LongBench v2

54.5

64.4

68.2

60.6

61.0

63.2

STEM

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

GPQA

92.4

87.0

91.9

87.4

87.6

88.4

HLE

35.5

30.8

37.5

30.2

30.1

28.7

HLE-Verified¹

43.3

38.8

48

37.6

--

37.6

Reasoning

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

LiveCodeBench v6

87.7

84.8

90.7

85.9

85.0

83.6

HMMT Feb 25

99.4

92.9

97.3

98.0

95.4

94.8

HMMT Nov 25

100

93.3

93.3

94.7

91.1

92.7

IMOAnswerBench

86.3

84.0

83.3

83.9

81.8

80.9

AIME26

96.7

93.3

90.6

93.3

93.3

91.3

Allgemeiner Agent

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

BFCL-V4

63.1

77.5

72.5

67.7

68.3

72.9

TAU2-Bench

87.1

91.6

85.4

84.6

77.0

86.7

VITA-Bench

38.2

56.3

51.6

40.9

41.9

49.7

DeepPlanning

44.6

33.9

23.3

28.7

14.5

34.3

Tool Decathlon

43.8

43.5

36.4

18.8

27.8

38.3

MCP-Mark

57.5

42.3

53.9

33.5

29.5

46.1

Such-Agent³

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

HLE mit Tool

45.5

43.4

45.8

49.8

50.2

48.3

BrowseComp

65.8

67.8

59.2

53.9

--/74.9

69.0/78.6

BrowseComp-zh

76.1

62.4

66.8

60.9

--

70.3

WideSearch

76.8

76.4

68.0

57.9

72.7

74.0

Seal-0

45.0

47.7

45.5

46.9

57.4

46.9

Mehrsprachigkeit

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMMLU

89.5

90.1

90.6

84.4

86.0

88.5

MMLU-ProX

83.7

85.7

87.7

78.5

82.3

84.7

NOVA-63

54.6

56.7

56.7

54.2

56.0

59.1

EINSCHLIESSEN

87.5

86.2

90.5

82.3

83.3

85.6

Global PIQA

90.9

91.6

93.2

86.0

89.3

89.8

PolyMATH

62.5

79.0

81.6

64.7

43.1

73.3

WMT24++

78.8

79.7

80.7

77.6

77.6

78.9

MAXIFE

88.4

79.2

87.5

84.0

72.8

88.2

Coding-Agent

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Denken

K2.5-1T-A32B

Qwen3.5-397B-A17B

SWE-bench Verifiziert

80.0

80.9

76.2

75.3

76.8

76.4

SWE-bench Mehrsprachig

72.0

77.5

65.0

66.7

73.0

72.0

SecCodeBench

68.7

68.6

62.4

57.5

61.3

68.3

Terminal Bench 2

54.0

59.3

54.2

22.5

50.8

52.5

Anmerkungen

  • HLE-Verified: eine geprüfte und überarbeitete Version von Humanity’s Last Exam (HLE), begleitet von einem transparenten, komponentenweisen Verifikationsprotokoll und einer feingliedrigen Fehlertaxonomie. Wir veröffentlichen den Datensatz als Open Source unter https://huggingface.co/datasets/skylenage/HLE-Verifiedarrow-up-right.

  • TAU2-Bench:wir folgen der offiziellen Einrichtung mit Ausnahme der Airline-Domäne, in der alle Modelle bewertet werden, indem die im Claude Opus 4.5 System-Card vorgeschlagenen Korrekturen angewendet werden.

  • MCPMark: Der GitHub MCP-Server verwendet v0.30.3 von api.githubcopilot.com; Playwright-Toolantworten werden bei 32k Tokens abgeschnitten.

  • Such-Agent: die meisten auf unserem Modell basierenden Such-Agenten übernehmen eine einfache Kontext-Folding-Strategie (256k): Sobald die kumulative Länge der Tool-Antworten einen voreingestellten Schwellenwert erreicht, werden frühere Tool-Antworten aus der Historie entfernt, um den Kontext innerhalb der Grenzen zu halten.

  • BrowseComp: wir haben zwei Strategien getestet, einfaches Kontext-Folding erreichte eine Punktzahl von 69,0, während die Verwendung der gleichen Alles-Verwerfen-Strategie wie DeepSeek-V3.2 und Kimi K2.5 78,6 erreichte.

  • WideSearch: wir verwenden ein Kontextfenster von 256k ohne jegliches Kontextmanagement.

  • MMLU-ProX: wir berichten die durchschnittliche Genauigkeit über 29 Sprachen.

  • WMT24++: ein schwierigeres Teilset von WMT24 nach Schwierigkeitskennzeichnung und Neuausbalancierung; wir berichten die durchschnittlichen Scores über 55 Sprachen mithilfe von XCOMET-XXL.

  • MAXIFE: wir berichten die Genauigkeit für englische + mehrsprachige Originalprompts (insgesamt 23 Einstellungen).

  • Leere Zellen (--) bedeuten, dass Ergebnisse noch nicht verfügbar oder nicht anwendbar sind.

Vision-Sprach-Benchmarks

STEM und Puzzle

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMMU

86.7

80.7

87.2

80.6

84.3

85.0

MMMU-Pro

79.5

70.6

81.0

69.3

78.5

79.0

MathVision

83.0

74.3

86.6

74.6

84.2

88.6

Mathvista(mini)

83.1

80.0

87.9

85.8

90.1

90.3

We-Math

79.0

70.0

86.9

74.8

84.7

87.9

DynaMath

86.8

79.7

85.1

82.8

84.4

86.3

ZEROBench

9

3

10

4

9

12

ZEROBench_sub

33.2

28.4

39.0

28.4

33.5

41.0

BabyVision

34.4

14.2

49.7

22.2

36.5

52.3/43.3

Allgemeines VQA

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

RealWorldQA

83.3

77.0

83.3

81.3

81.0

83.9

MMStar

77.1

73.2

83.1

78.7

80.5

83.8

HallusionBench

65.2

64.1

68.6

66.7

69.8

71.4

MMBench (EN-DEV-v1.1)

88.2

89.2

93.7

89.7

94.2

93.7

SimpleVQA

55.8

65.7

73.2

61.3

71.2

67.1

Texterkennung und Dokumentenverständnis

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

OmniDocBench1.5

85.7

87.7

88.5

84.5

88.8

90.8

CharXiv(RQ)

82.1

68.5

81.4

66.1

77.5

80.8

MMLongBench-Doc

--

61.9

60.5

56.2

58.5

61.5

CC-OCR

70.3

76.9

79.0

81.5

79.7

82.0

AI2D_TEST

92.2

87.7

94.1

89.2

90.8

93.9

OCRBench

80.7

85.8

90.4

87.5

92.3

93.1

Räumliche Intelligenz

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

ERQA

59.8

46.8

70.5

52.5

--

67.5

CountBench

91.9

90.6

97.3

93.7

94.1

97.2

RefCOCO(durchschn.)

--

--

84.1

91.1

87.8

92.3

ODInW13

--

--

46.3

43.2

--

47.0

EmbSpatialBench

81.3

75.7

61.2

84.3

77.4

84.5

RefSpatialBench

--

--

65.5

69.9

--

73.6

LingoQA

68.8

78.8

72.8

66.8

68.2

81.6

V*

75.9

67.0

88.0

85.9

77.0

95.8/91.1

Hypersim

--

--

--

11.0

--

12.5

SUNRGBD

--

--

--

34.9

--

38.3

Nuscene

--

--

--

13.9

--

16.0

Video-Verständnis

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

VideoMME (mit Untertit.)

86

77.6

88.4

83.8

87.4

87.5

VideoMME (ohne Untertit.)

85.8

81.4

87.7

79.0

83.2

83.7

VideoMMMU

85.9

84.4

87.6

80.0

86.6

84.7

MLVU (M-Durchschn.)

85.6

81.7

83.0

83.8

85.0

86.7

MVBench

78.1

67.2

74.1

75.2

73.5

77.6

LVBench

73.7

57.3

76.2

63.6

75.9

75.5

MMVU

80.8

77.3

77.5

71.1

80.4

75.4

Visueller Agent

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

ScreenSpot Pro

--

45.7

72.7

62.0

--

65.6

OSWorld-Verified

38.2

66.3

--

38.1

63.3

62.2

AndroidWorld

--

--

--

63.7

--

66.8

Medizin

Benchmark

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

VQA-RAD

69.8

65.6

74.5

65.4

79.9

76.3

SLAKE

76.9

76.4

81.3

54.7

81.6

79.9

OM-VQA

72.9

75.5

80.3

65.4

87.4

85.1

PMC-VQA

58.9

59.9

62.3

41.2

63.3

64.2

MedXpertQA-MM

73.3

63.6

76.0

47.6

65.3

70.0

Anmerkungen

  • MathVision:Die Punktzahl unseres Modells wird mit einem festen Prompt bewertet, z. B. „Bitte begründe Schritt für Schritt und setze deine endgültige Antwort in \boxed{}.” Für andere Modelle berichten wir die höhere Punktzahl zwischen Läufen mit und ohne \boxed{} Formatierung.

  • BabyVision: Die Punktzahl unseres Modells wird mit aktiviertem CI (Code Interpreter) gemeldet; ohne CI beträgt das Ergebnis 43,3.

  • V*: Die Punktzahl unseres Modells wird mit aktiviertem CI (Code Interpreter) gemeldet; ohne CI beträgt das Ergebnis 91,1.

  • Leere Zellen (--) bedeuten, dass Ergebnisse noch nicht verfügbar oder nicht anwendbar sind.

Zuletzt aktualisiert

War das hilfreich?