💜Qwen3.5 - Anleitung zum lokalen Betrieb

Führe die neuen Qwen3.5-LLMs lokal auf deinem Gerät aus, einschließlich Medium: Qwen3.5-35B-A3B, 27B, 122B-A10B, Small: Qwen3.5-0.8B, 2B, 4B, 9B und 397B-A17B!

Qwen3.5 ist Alibabas neue Modellfamilie, einschließlich Qwen3.5-35B-A3B, 27B, 122B-A10B und 397B-A17B und die neue Klein Serie: Qwen3.5-0.8B, 2B, 4B und 9B. Die multimodalen Hybrid-Reasoning-LLMs liefern die stärksten Leistungen für ihre Größe. Sie unterstützen 256K Kontext über 201 Sprachen, haben Denken + nicht-Denken und zeichnen sich beim agentischen Codieren, Vision, Chat und Aufgaben mit langem Kontext aus. Die 35B- und 27B-Modelle laufen auf einem 22GB Mac / RAM-Gerät. Siehe alle GGUFs hier.

Update vom 5. März: Qwen3.5- erneut herunterladen35B, 27B, 122B und 397B.

Alle GGUFs jetzt aktualisiert mit einer verbesserten Quantisierungs- Algorithmus.
Alle verwenden unser neues imatrix-Daten. Siehe einige Verbesserungen in Chat-, Coding-, Langkontext- und Tool-Aufruf-Anwendungsfällen.
Tool-Aufrufe verbessert nach unseren Chat-Template-Fixes. Die Korrektur ist universell und gilt für jegliche Qwen3.5-Format und jegliche Uploader.
Überprüfe neue GGUF-Benchmarks für Unsloth-Leistungsergebnisse + unsere MXFP4-Untersuchung.
Wir entfernen MXFP4-Schichten aus 3 Qwen3.5-GGUFs: Q2_K_XL, Q3_K_XL und Q4_K_XL.

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung - daher werden in 4-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Qwen für die Bereitstellung von Day-Zero-Zugriff für Unsloth. Du kannst auch feinabstimmen Qwen3.5 mit Unsloth.

Um Denken zu aktivieren oder zu deaktivieren siehe Qwen3.5.Qwen3.5 Small-Modelle sind standardmäßig deaktiviert. Siehe auch LM Studio Anleitung um den Denk-Schalter zu aktivieren.

35B-A3B 27B 122B-A10B 397B-A17B Qwen3.5 feinabstimmen 0.8B • 2B • 4B • 9B

⚙️ Nutzungsanleitung

Tabelle: Anforderungen an Inferenz-Hardware (Einheiten = Gesamtspeicher: RAM + VRAM oder Unified Memory)

Qwen3.5

3-Bit

4-Bit

6-Bit

8-Bit

BF16

0.8B + 2B

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

27B

14 GB

17 GB

24 GB

30 GB

54 GB

35B-A3B

17 GB

22 GB

30 GB

38 GB

70 GB

122B-A10B

60 GB

70 GB

106 GB

132 GB

245 GB

397B-A17B

180 GB

214 GB

340 GB

512 GB

810 GB

Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + System-RAM) die Größe der quantisierten Modell-Datei, die du herunterlädst, übersteigt. Falls nicht, kann llama.cpp weiterhin über SSD/HDD-Offloading laufen, aber die Inferenz wird langsamer sein.

Zwischen 27B und 35B-A3B, verwende 27B, wenn du etwas genauere Ergebnisse möchtest und nicht auf deinem Gerät platzst. Wähle 35B-A3B, wenn du eine deutlich schnellere Inferenz möchtest.

Empfohlene Einstellungen

Maximales Kontextfenster: 262,144 (kann via YaRN auf 1M erweitert werden)
presence_penalty = 0.0 bis 2.0 Standardmäßig ist dies aus, aber um Wiederholungen zu reduzieren, kannst du dies verwenden; jedoch kann die Verwendung eines höheren Werts zu leichter Leistungseinbuße
Angemessene Ausgabelänge: 32,768 Token für die meisten Anfragen

Wenn du Unsinn erhältst, könnte deine Kontextlänge zu niedrig eingestellt sein. Oder versuche --cache-type-k bf16 --cache-type-v bf16 was helfen könnte.

Da Qwen3.5 Hybrid-Reasoning ist, haben Denk- und Nicht-Denk-Modus unterschiedliche Einstellungen:

Denkmodus:

Allgemeine Aufgaben

Präzise Codieraufgaben (z. B. WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_k = 20

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat penalty = deaktiviert oder 1.0

Denkmodus für allgemeine Aufgaben:

temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

Denkmodus für präzise Codieraufgaben:

temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

Instruct (Nicht-Denk) Modus-Einstellungen:

Allgemeine Aufgaben

Reasoning-Aufgaben

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

min_p = 0.0

presence_penalty = 1.5

repeat penalty = deaktiviert oder 1.0

Um Denken / Reasoning zu deaktivieren, verwende --chat-template-kwargs '{"enable_thinking":false}'

Wenn du auf Windows Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":false}"

Verwende 'true' und 'false' austauschbar.

Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning standardmäßig deaktiviert. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'

Instruct (Nicht-Denk) für allgemeine Aufgaben:

temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

Instruct (Nicht-Denk) für Reasoning-Aufgaben:

temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

Qwen3.5 Inferenz-Tutorials:

Da Qwen3.5 in vielen verschiedenen Größen kommt, verwenden wir Dynamic 4-bit MXFP4_MOE GGUF-Varianten für alle Inferenz-Workloads. Klicke unten, um zu den jeweiligen Modellanweisungen zu navigieren:

Qwen3.5-35B-A3B 27B 122B-A10B 397B-A17B Klein (0.8B • 2B • 4B • 9B)LM Studio

Unsloth Dynamic GGUF-Uploads:

Qwen3.5-35B-A3B

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

presence_penalty = 0.0 bis 2.0 Standardmäßig ist dies aus, aber um Wiederholungen zu reduzieren, kannst du dies verwenden; jedoch kann die Verwendung eines höheren Werts zu leichte Leistungseinbuße.

Derzeit funktioniert kein Qwen3.5-GGUF in Ollama aufgrund separater mmproj-Vision-Dateien. Verwende llama.cpp-kompatible Backends.

🦙 Llama.cpp Anleitungen

Qwen3.5-35B-A3B

Für diese Anleitung verwenden wir Dynamic 4-bit, das auf einem 24GB RAM / Mac-Gerät hervorragende Ergebnisse für schnelle Inferenz liefert. Da das Modell bei voller F16-Präzision nur etwa 72GB groß ist, müssen wir uns nicht allzu sehr um Leistung sorgen. GGUF: Qwen3.5-35B-A3B-GGUF

Für diese Tutorials werden wir llama.cpp für schnelle lokale Inferenz nutzen, insbesondere wenn du eine CPU hast.

Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp an einem bestimmten Ort gespeichert wird. Das Modell hat eine maximale Kontextlänge von 256K.

Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Allgemeine Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Nicht-Denk-Modus:

Allgemeine Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Reasoning-Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging

hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Verwende "*UD-Q2_K_XL*" für Dynamic 2bit

Führe dann das Modell im Konversationsmodus aus:

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-35B-A3B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5 Small (0.8B • 2B • 4B • 9B)

Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning deaktiviert standardmäßig. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'

Unter Windows verwende: --chat-template-kwargs "{\"enable_thinking\":true}"

Für die Qwen3.5 Small-Serie, da sie so klein sind, musst du nur den Modellnamen in den Skripten auf die gewünschte Variante ändern. Für diese spezielle Anleitung verwenden wir die 9B-Parameter-Variante. Um sie alle nahezu in voller Präzision auszuführen, benötigst du nur ein Gerät mit 12GB RAM / VRAM / Unified Memory. GGUFs:

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Wenn du llama.cpp Direkt zum Laden von Modellen kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp an einem bestimmten Ort gespeichert wird. Das Modell hat eine maximale Kontextlänge von 256K.

Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:

Um eine andere Variante als 9B zu verwenden, kannst du die '9B' in: 0.8B, 2B oder 4B usw. ändern.

Denkmodus (standardmäßig deaktiviert)

Qwen3.5 Small-Modelle deaktivieren Denken standardmäßig. Verwende llama-server, um es zu aktivieren.

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

Allgemeine Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

Um eine andere Variante als 9B zu verwenden, kannst du die '9B' in: 0.8B, 2B oder 4B usw. ändern.

Nicht-Denk-Modus ist standardmäßig bereits aktiviert

Allgemeine Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00

Reasoning-Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

hf download unsloth/Qwen3.5-9B-GGUF \
    --local-dir unsloth/Qwen3.5-9B-GGUF \
    --include "*UD-Q4_K_XL*" # Verwende "*UD-Q2_K_XL*" für Dynamic 2bit

Führe dann das Modell im Konversationsmodus aus:

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-9B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5-27B

Für diese Anleitung verwenden wir Dynamic 4-bit, das auf einem 18GB RAM / Mac-Gerät hervorragend für schnelle Inferenz funktioniert. GGUF: Qwen3.5-27B-GGUF

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Allgemeine Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Nicht-Denk-Modus:

Allgemeine Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Reasoning-Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging

hf download unsloth/Qwen3.5-27B-GGUF \
    --local-dir unsloth/Qwen3.5-27B-GGUF \
    --include "*UD-Q4_K_XL*" # Verwende "*UD-Q2_K_XL*" für Dynamic 2bit

Führe dann das Modell im Konversationsmodus aus:

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-27B-GGUF/Qwen3.5-27B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-27B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5-122B-A10B

Für diese Anleitung verwenden wir Dynamic 4-bit, das auf einem 70GB RAM / Mac-Gerät hervorragend für schnelle Inferenz funktioniert. GGUF: Qwen3.5-122B-A10B-GGUF

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Allgemeine Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Nicht-Denk-Modus:

Allgemeine Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Reasoning-Aufgaben:

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging

hf download unsloth/Qwen3.5-122B-A10B-GGUF \
    --local-dir unsloth/Qwen3.5-122B-A10B-GGUF \
    --include "*UD-Q4_K_XL*" # Verwende "*UD-Q2_K_XL*" für Dynamic 2bit

Führe dann das Modell im Konversationsmodus aus:

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-122B-A10B-GGUF/UD-Q4_K_XL/Qwen3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf \
    --mmproj unsloth/Qwen3.5-122B-A10B-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B befindet sich in derselben Leistungsklasse wie Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2. Der vollständige 397B-Checkpoint belegt ~807GB auf der Festplatte, aber via Unsloths 397B GGUFs kannst du ausführen:

3-Bit: passt auf 192GB RAM Systeme (z. B. ein 192GB Mac)
4-Bit (MXFP4): passt auf 256GB RAM. Unsloth 4-Bit dynamic UD-Q4_K_XL ist ~214GB auf der Festplatte - lädt direkt auf einem 256GB M3 Ultra
Läuft auf einer einzelnen 24GB GPU + 256GB System-RAM via MoE-Offloading, erreicht 25+ Tokens/s
8-Bit benötigt ~512GB RAM/VRAM

Siehe 397B-Quantisierungs-Benchmarks wie Unsloth-GGUFs performen.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp um an einem bestimmten Ort zu speichern. Denke daran, dass das Modell nur eine maximale Kontextlänge von 256K hat.

Folge dem für Denken Modus:

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Folge dem für nicht-denkend Modus:

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

hf download unsloth/Qwen3.5-397B-A17B-GGUF \
    --local-dir unsloth/Qwen3.5-397B-A17B-GGUF \
    --include "*UD-Q4_K_XL" # Verwende "*UD-Q2_K_XL*" für Dynamic 2bit

Du kannst --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, also wie viele Schichten. Versuche, es anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast.

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-397B-A17B-GGUF/UD-Q4_K_XL/Qwen3.5-397B-A17B-UD-Q4_K_XL-00001-of-00006.gguf \
    --mmproj unsloth/Qwen3.5-397B-A17B-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

👾 LM Studio Anleitung

Für diese Anleitung werden wir LM Studio, eine einheitliche UI-Schnittstelle zum Ausführen von LLMs, verwenden. Der '💡Thinking' und 'Non-thinking' Schalter erscheint möglicherweise nicht standardmäßig, daher sind zusätzliche Schritte erforderlich, um ihn zum Laufen zu bringen.

Herunterladen LM Studio für dein Gerät. Öffne dann Model Search, suche nach 'unsloth/qwen3.5' und lade die gewünschte GGUF (quant) herunter.

Anleitung für den Denk-Schalter: Nach dem Herunterladen öffne dein Terminal / PowerShell und versuche: lms --help. Wenn LM Studio dann normal mit vielen Befehlen erscheint, führe aus:

lms get unsloth/qwen3.5-4b

Dies holt eine YAML-Datei, die es deinem GGUF ermöglicht, den '💡Thinking' und 'Non-thinking' Schalter anzuzeigen. Du kannst 4b durch die gewünschte Quantisierung ersetzen, die du haben möchtest.

Andernfalls kannst du zu unserer LM Studio-Seite gehen und die spezifische YAML-Datei herunterladen.

Starte LM Studio neu und lade dann dein heruntergeladenes Modell (mit dem spezifischen Denk-Schalter). Du solltest jetzt den Denk-Schalter sehen. Vergiss nicht, die korrekten Parameter.

🦙 Llama-server Serving & OpenAIs Completion-Bibliothek

Um Qwen3.5-397B-A17B für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:

./llama.cpp/llama-server \
--model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-35B-A3B-GGUF/mmproj-F16.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001

Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast, mache:

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.5-397B-A17B",
    messages = [{"role": "user", "content": "Erstelle ein Snake-Spiel."},],
)
print(completion.choices[0].message.content)

🤔 Wie man Reasoning & Denken aktiviert oder deaktiviert

Für die folgenden Befehle kannst du 'true' und 'false' austauschbar verwenden. Um den Denk-Schalter für LM Studio zu erhalten, lies unsere Anleitung.

Um deaktivieren Denken / Reasoning, verwende innerhalb von llama-server:

    --chat-template-kwargs '{"enable_thinking":false}'

Wenn du auf Windows oder in Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":false}"

Um aktivieren Denken / Reasoning, verwende innerhalb von llama-server:

    --chat-template-kwargs '{"enable_thinking":true}'

Wenn du auf Windows oder in Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":true}"

Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning standardmäßig deaktiviert. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'

Und unter Windows oder Powershell: --chat-template-kwargs "{\"enable_thinking\":true}"

Als Beispiel für Qwen3.5-9B, um Denken zu aktivieren (standardmäßig deaktiviert):

./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-BF16.gguf \
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

Und dann in Python:

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.5-9B-GGUF",
    messages = [{"role": "user", "content": "Was ist 2+2?"},],
)
print(completion.choices[0].message.content)
print(completion.choices[0].message.reasoning_content)

👨‍💻 OpenAI Codex & Claude Code

Um das Modell für lokale, agentische Coding-Workloads auszuführen, kannst du unserer Anleitung folgen. Ändere einfach den Modellnamen in die gewünschte 'Qwen3.5'-Variante und stelle sicher, dass du die richtigen Qwen3.5-Parameter und Nutzungsanweisungen befolgst. Verwende das llama-server das wir gerade eingerichtet haben.

Claude Code

OpenAI Codex

Nachdem du z. B. die Anweisungen für Claude Code befolgt hast, wirst du Folgendes sehen:

Dann können wir z. B. fragen Erstelle ein Python-Spiel für Schach :

🔨Tool-Aufrufe mit Qwen3.5

Siehe Tool Calling Guide für mehr Details, wie man Tool-Aufrufe macht. In einem neuen Terminal (wenn du tmux verwendest, nutze CTRL+B+D), erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:

import json, subprocess, random
from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
def write_a_story() -> str:
    return random.choice([
        "Vor langer Zeit in einer weit entfernten Galaxie...",
        "Es gab 2 Freunde, die Faultiere und Code liebten...",
        "Die Welt ging unter, weil jedes Faultier sich zu übermenschlicher Intelligenz entwickelte...",
        "Unbemerkt von einem Freund, hat der andere versehentlich ein Programm geschrieben, um Faultiere weiterzuentwickeln...",
    ])
def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        msg = "Kann 'rm, sudo, dd, chmod' Befehle nicht ausführen, da sie gefährlich sind"
        print(msg); return msg
    print(f"Führe Terminal-Befehl `{command}` aus")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
    except subprocess.CalledProcessError as e:
        return f"Befehl fehlgeschlagen: {e.stderr}"
def python(code: str) -> str:
    data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
}
tools = [
    {
        "type": "Funktion",
        "function": {
            "name": "add_number",
            "description": "Addiere zwei Zahlen.",
            "parameters": {
                "type": "Objekt",
                "properties": {
                    "a": {
                        "type": "Zeichenkette",
                        "description": "Die erste Zahl.",
                    },
                    "b": {
                        "type": "Zeichenkette",
                        "description": "Die zweite Zahl.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "Funktion",
        "function": {
            "name": "multiply_number",
            "description": "Multipliziere zwei Zahlen.",
            "parameters": {
                "type": "Objekt",
                "properties": {
                    "a": {
                        "type": "Zeichenkette",
                        "description": "Die erste Zahl.",
                    },
                    "b": {
                        "type": "Zeichenkette",
                        "description": "Die zweite Zahl.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "Funktion",
        "function": {
            "name": "substract_number",
            "description": "Subtrahiere zwei Zahlen.",
            "parameters": {
                "type": "Objekt",
                "properties": {
                    "a": {
                        "type": "Zeichenkette",
                        "description": "Die erste Zahl.",
                    },
                    "b": {
                        "type": "Zeichenkette",
                        "description": "Die zweite Zahl.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "Funktion",
        "function": {
            "name": "write_a_story",
            "description": "Schreibt eine zufällige Geschichte.",
            "parameters": {
                "type": "Objekt",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "Funktion",
        "function": {
            "name": "terminal",
            "description": "Führe Operationen vom Terminal aus.",
            "parameters": {
                "type": "Objekt",
                "properties": {
                    "command": {
                        "type": "Zeichenkette",
                        "description": "Der Befehl, den Sie ausführen möchten, z. B. `ls`, `rm`, ...",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "Funktion",
        "function": {
            "name": "python",
            "description": "Rufe einen Python-Interpreter mit etwas Python-Code auf, der ausgeführt wird.",
            "parameters": {
                "type": "Objekt",
                "properties": {
                    "code": {
                        "type": "Zeichenkette",
                        "description": "Der auszuführende Python-Code",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

Wir verwenden dann die untenstehenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:

from openai import OpenAI
def unsloth_inference(
    Nachrichten,
    Temperatur = 0.6,
    top_p = 0.95,
    top_k = 20,
    min_p = 0.00,
    repetition_penalty = 1.0,
):
    messages = messages.copy()
    openai_client = OpenAI(
        base_url = "http://127.0.0.1:8001/v1",
        api_key = "sk-no-key-required",
    )
    model_name = next(iter(openai_client.models.list())).id
    print(f"Verwende Modell = {model_name}")
    has_tool_calls = True
    original_messages_len = len(messages)
    while has_tool_calls:
        print(f"Aktuelle Nachrichten = {messages}")
        response = openai_client.chat.completions.create(
            model = model_name,
            messages = messages,
            temperature = temperature,
            top_p = top_p,
            tools = tools if tools else None,
            tool_choice = "auto" if tools else None,
            extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
        )
        tool_calls = response.choices[0].message.tool_calls or []
        content = response.choices[0].message.content or ""
        tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
        messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
        for tool_call in tool_calls:
            fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
            out = MAP_FN[fx](**json.loads(args))
            messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
        else:
            has_tool_calls = False
    return messages

Nachdem Qwen3.5 gestartet wurde über llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für weitere Details, können wir dann einige Tool-Aufrufe durchführen.

📊 Benchmarks

Unsloth GGUF-Benchmarks

Wir haben Qwen3.5-35B Unsloth Dynamic-Quants aktualisiert und damit SOTA bei nahezu allen Punkten. Wir führten über 150 KL-Divergenz-Benchmarks durch, insgesamt 9 TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen. Wir haben außerdem einen Tool-Aufruf Chat-Vorlage Fehler (betrifft alle Quant-Uploaders)

Alle GGUFs jetzt aktualisiert mit einer verbesserten Quantisierungs- Algorithmus.
Alle verwenden unser neues imatrix-Daten. Siehe einige Verbesserungen in Chat-, Coding-, Langkontext- und Tool-Aufruf-Anwendungsfällen.
Qwen3.5-35B-A3B GGUFs wurden aktualisiert, um neue Fixes zu verwenden (112B, 27B werden noch konvertiert, erneut herunterladen, sobald sie aktualisiert sind)
99,9% KL-Divergenz zeigt SOTA an der Pareto-Front für UD-Q4_K_XL, IQ3_XXS und mehr.
MXFP4 wird zurückgezogen aus allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, außer für reines MXFP4_MOE.

LESEN SIE HIER UNSERE DETAILLIERTE QWEN3.5-ANALYSE + BENCHMARKS:

Qwen3.5 GGUF-Benchmarks

Qwen3.5-397B-A17B-Benchmarks

Benjamin Marie (Drittanbieter) hat gebenchmarkt Qwen3.5-397B-A17B unter Verwendung von Unsloth GGUFs auf einem 750-Prompt-Mix-Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell Fehler macht im Vergleich zum Original).

Wichtige Ergebnisse (Genauigkeit; Änderung vs. Original; relative Fehlerzunahme):

Originalgewichte: 81.3%
UD-Q4_K_XL: 80.5% (−0,8 Punkte; +4,3% relative Fehlerzunahme)
UD-Q3_K_XL: 80.7% (−0,6 Punkte; +3,5% relative Fehlerzunahme)

UD-Q4_K_XL und UD-Q3_K_XL bleiben dem Original extrem nahe, weit unter einem Genauigkeitsverlust von 1 Punkt in dieser Suite, was Ben andeutet, dass man den Speicherbedarf stark reduzieren kann (~500 GB weniger) mit geringen bis keinen praktischen Verlusten bei den getesteten Aufgaben.

Wie man wählt: Dass Q3 hier leicht besser als Q4 abschneidet, ist bei dieser Größenordnung als normale Lauf-zu-Lauf-Varianz vollkommen plausibel, daher behandeln Sie Q3 und Q4 als effektiv gleichwertige Qualität in diesem Benchmark:

Wählen Sie Q3 wenn Sie den kleinsten Footprint / beste Speicherersparnisse wollen
Wählen Sie Q4 wenn Sie eine etwas konservativere Option mit ähnlichen Ergebnissen

Alle aufgeführten Quants nutzen unsere dynamische Methodik. Selbst UD-IQ2_M verwendet die gleiche dynamische Methodik, jedoch ist der Konvertierungsprozess anders als bei UD-Q2-K-XL wobei K-XL in der Regel schneller ist als UD-IQ2_M obwohl es größer ist, weshalb UD-IQ2_M besser abschneiden kann als UD-Q2-K-XL.

Offizielle Qwen-Benchmarks

Qwen3.5-35B-A3B, 27B und 122B-A10B-Benchmarks

Qwen3.5-4B- und 9B-Benchmarks

Qwen3.5-397B-A17B-Benchmarks

VorherigeUltra Long Context RL NächsteQwen3.5 GGUF-Benchmarks

Zuletzt aktualisiert vor 5 Stunden

War das hilfreich?

hashtag⚙️ Nutzungsanleitung

hashtagEmpfohlene Einstellungen

hashtagDenkmodus:

hashtagInstruct (Nicht-Denk) Modus-Einstellungen:

hashtagQwen3.5 Inferenz-Tutorials:

hashtag🦙 Llama.cpp Anleitungen

hashtagQwen3.5-35B-A3B

hashtagQwen3.5 Small (0.8B • 2B • 4B • 9B)

hashtagQwen3.5-27B

hashtagQwen3.5-122B-A10B

hashtagQwen3.5-397B-A17B

hashtag👾 LM Studio Anleitung

hashtag🦙 Llama-server Serving & OpenAIs Completion-Bibliothek

hashtag🤔 Wie man Reasoning & Denken aktiviert oder deaktiviert

hashtag👨‍💻 OpenAI Codex & Claude Code

hashtag🔨Tool-Aufrufe mit Qwen3.5

hashtag📊 Benchmarks

hashtagUnsloth GGUF-Benchmarks

hashtagQwen3.5-397B-A17B-Benchmarks

hashtagOffizielle Qwen-Benchmarks

hashtagQwen3.5-35B-A3B, 27B und 122B-A10B-Benchmarks

hashtagQwen3.5-4B- und 9B-Benchmarks

hashtagQwen3.5-397B-A17B-Benchmarks

⚙️ Nutzungsanleitung

Empfohlene Einstellungen

Denkmodus:

Instruct (Nicht-Denk) Modus-Einstellungen:

Qwen3.5 Inferenz-Tutorials:

🦙 Llama.cpp Anleitungen

Qwen3.5-35B-A3B

Qwen3.5 Small (0.8B • 2B • 4B • 9B)

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

👾 LM Studio Anleitung

🦙 Llama-server Serving & OpenAIs Completion-Bibliothek

🤔 Wie man Reasoning & Denken aktiviert oder deaktiviert

👨‍💻 OpenAI Codex & Claude Code

🔨Tool-Aufrufe mit Qwen3.5

📊 Benchmarks

Unsloth GGUF-Benchmarks

Qwen3.5-397B-A17B-Benchmarks

Offizielle Qwen-Benchmarks

Qwen3.5-35B-A3B, 27B und 122B-A10B-Benchmarks

Qwen3.5-4B- und 9B-Benchmarks

Qwen3.5-397B-A17B-Benchmarks