💜Qwen3.6 - Wie man lokal ausführt
Führe die neuen Modelle Qwen3.6-27B und 35B-A3B lokal aus!
Qwen3.6 ist Alibabas neue Familie multimodaler Hybrid-Denkmodelle, darunter: Qwen3.6-27B und 35B-A3B. Es liefert Spitzenleistung für seine Größe und unterstützt 256K Kontext in 201 Sprachen. Es glänzt bei agentischem Coding, Vision- und Chat-Aufgaben. Qwen3.6-27B läuft auf 18 GB RAM Setups und 35B-A3B läuft auf 22 GB. Sie können die Modelle jetzt in Unsloth Studio.
NEU: Qwen3.6 MTP ist da! MTP ermöglicht 1,4- bis 2,2-fach schnellere Inferenz ohne Genauigkeitsverlust. Führen Sie MTP direkt in Unsloth Studio.
Wir haben Qwen3.6 GGUF-Benchmarks durchgeführt, damit Sie die beste Quantisierung auswählen können.
Qwen3.6-Tutorials ausführenMTP-Anleitung
Qwen3.6 GGUFs verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung – die Quantisierungen werden also auf realen Anwendungsfall-Datensätzen kalibriert und wichtige Schichten werden auf höhere Präzision hochgestuft. Vielen Dank an Qwen für den Zugriff am ersten Tag.
Unterstützung für die Entwicklerrolle für Codex, OpenCode und mehr: Unsere Uploads unterstützen jetzt die
Entwicklerrollefür agentische Coding-Tools.Tool-Aufruf: Wie Qwen3.5, haben wir das Parsen verschachtelter Objekte verbessert, damit Tool-Aufrufe häufiger erfolgreich sind.

⚙️ Nutzungsleitfaden
Tabelle: Hardwareanforderungen für die Inferenz (Einheiten = Gesamtspeicher: RAM + VRAM oder einheitlicher Speicher)
27B
15 GB
18 GB
24 GB
30 GB
55 GB
35B-A3B
17 GB
23 GB
30 GB
38 GB
70 GB
Für die beste Leistung stellen Sie sicher, dass Ihr gesamter verfügbarer Speicher (VRAM + Systemspeicher) die Größe der quantisierten Modelldatei, die Sie herunterladen, übersteigt. Wenn nicht, kann llama.cpp weiterhin per SSD-/HDD-Auslagerung laufen, aber die Inferenz wird langsamer.
Verwenden Sie NICHT CUDA 13.2, da Sie sonst Kauderwelsch-Ausgaben erhalten können. Verwenden Sie CUDA unter 13.2 oder CUDA 13.3.
Um Qwen3.6 zu trainieren, können Sie auf unseren vorherigen Qwen3.5-Feinabstimmungsleitfaden.
Empfohlene Einstellungen
Maximales Kontextfenster:
262,144(kann über YaRN auf 1M erweitert werden)presence_penalty = 0,0 bis 2,0standardmäßig ist dies deaktiviert, aber um Wiederholungen zu reduzieren, können Sie dies verwenden; ein höherer Wert kann jedoch zu einem leichten LeistungsabfallAusreichende Ausgabelänge:
32,768Tokens für die meisten Anfragen
Wenn Sie Kauderwelsch erhalten, ist Ihre Kontextlänge möglicherweise zu niedrig eingestellt. Oder versuchen Sie --cache-type-k bf16 --cache-type-v bf16 das könnte helfen.
Da Qwen3.6 hybrides Reasoning verwendet, haben Denk- und Nicht-Denk-Modus unterschiedliche Einstellungen:
Denkmodus:
Qwen3.6 hat jetzt Denken beibehalten.
temperature = 1,0
temperature = 0,6
top_p = 0,95
top_p = 0,95
top_k = 20
top_k = 20
min_p = 0,0
min_p = 0,0
presence_penalty = 0,0
presence_penalty = 0,0
repeat_penalty = deaktiviert oder 1,0
repeat_penalty = deaktiviert oder 1,0
Denkmodus für allgemeine Aufgaben:
Denkmodus für präzise Coding-Aufgaben:
Einstellungen für den Instruct-(Nicht-Denk-)Modus:
temperature = 0,7
top_p = 0,8
top_k = 20
min_p = 0,0
presence_penalty = 1,5
repeat_penalty = deaktiviert oder 1,0
Um Denken/Reasoning zu deaktivieren, verwenden Sie --chat-template-kwargs '{"enable_thinking":false}'
Wenn Sie auf Windows Powershell sind, verwenden Sie: --chat-template-kwargs "{\"enable_thinking\":false}"
Verwenden Sie 'true' und 'false' austauschbar.
Instruct-(Nicht-Denk-)Modus für allgemeine Aufgaben:
Qwen3.6-Inferenz-Tutorials:
Wir verwenden Dynamic 4-Bit UD-Q4_K_XL GGUF-Varianten für Inferenz-Workloads. Klicken Sie unten, um zu den Anweisungen für das jeweilige Modell zu gelangen:
In Unsloth Studio ausführenIn llama.cpp ausführenMTP-AnleitungNVFP4-Anleitung
Verwenden Sie NICHT CUDA 13.2, da Sie sonst Kauderwelsch-Ausgaben erhalten können. Verwenden Sie CUDA unter 13.2 oder CUDA 13.3.
🦥 Unsloth Studio-Anleitung
Qwen3.6 und Qwen3.6 MTP können jetzt in Unsloth Studio, unserer neuen Open-Source-Web-UI für lokale KI, ausgeführt werden. Mit Unsloth Studio können Sie Modelle lokal auf MacOS, Windows, Linux und:
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Selbstheilung Tool-Aufruf + Websuche
Codeausführung (Python, Bash)
Automatische Inferenz Parameterabstimmung (Temp, Top-P usw.)
Schnelle CPU- + GPU-Inferenz über llama.cpp
LLMs trainieren 2x schneller mit 70 % weniger VRAM

Qwen3.6 oder Qwen3.6 MTP suchen und herunterladen
Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zum Studio-Chat Tab und suchen Sie in der Suchleiste nach Qwen3.6 oder Qwen3.6 MTP und laden Sie das gewünschte Modell und die gewünschte Quantisierung herunter.

Qwen3.6 ausführen
Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können außerdem die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.
Für weitere Informationen können Sie unseren Inferenzleitfaden für Unsloth Studio. Unten hat die 2-Bit-Qwen3.6-GGUF 30+ Tool-Aufrufe ausgeführt, 20 Websites durchsucht und Python-Code ausgeführt:
⚡ MTP-Anleitung
MTP (Multi-Token-Vorhersage) Spekulatives Decoding ermöglicht es Modellen wie Qwen3.6, eine um etwa 1,4- bis 2,2-fache schnellere Generierung mit keiner Genauigkeitsänderung. Dadurch können Qwen3.6 27B und 35B-A3B eine >1,4-fache Beschleunigung gegenüber dem ursprünglichen Baseline-Modell erzielen, was besonders für lokale Modelle nützlich ist.
Unsloth Qwen3.6 MTP GGUFs befinden sich nicht mehr im experimentellen Modus, und llama.cpp hat MTP-Unterstützung zusammengeführt. Führen Sie es direkt in Benutzeroberfläche von Unsloth Studio oder über llama.cpp aus. Qwen3.6 27B MTP läuft jetzt mit 160 Tokens/s Generierung und Qwen3.6 35B-A3B mit 240 Tokens/s auf einer RTX-6000-GPU. Siehe MTP-Benchmarks.
Unsloth Studio stellt automatisch die idealen MTP-Einstellungen ein, optimiert für Ihre spezifische Hardware (Mac, CPU, GPU usw.) – Sie können sie später dennoch ändern.
MTP verwendet etwas mehr VRAM als standardmäßige GGUFs, planen Sie also etwa 1 GB zusätzlichen RAM/VRAM-Spielraum ein.
In Unsloth Studio ausführenIn llama.cpp ausführenNVFP4 ausführen
In der Praxis sagt MTP mehrere zukünftige Tokens voraus, dann überprüft das Hauptmodell diese Tokens parallel. Dadurch wird die Anzahl der für die Generierung benötigten Forward-Pässe reduziert und die Ausgabe beschleunigt. Wir haben festgestellt --spec-draft-n-max 2 funktioniert in den meisten Setups am besten. Gehen Sie jedoch nicht davon aus, 2 ist optimal, da die Leistung von der Hardware abhängt. Probieren Sie Werte von 1 bis 6 aus und verwenden Sie denjenigen, der für Ihr System am schnellsten ist.
Wir haben außerdem MTP-GGUFs hochgeladen für die Qwen3.5 Modellfamilie einschließlich: 0,8B, 2B, 4B, 9B, 27B, 35B-A3B, 122B-A10B und 397B-A17B. Llama.cpp verbessert die MTP-Leistung fortlaufend, also erwarten Sie, dass es mit der Zeit schneller wird!
Tabelle: Hardwareanforderungen für MTP (Einheiten = Gesamtspeicher: RAM + VRAM oder einheitlicher Speicher)
27B
16 GB
19 GB
25 GB
31 GB
56 GB
35B-A3B
18 GB
24 GB
31 GB
39 GB
71 GB
🦥 Unsloth Studio MTP-Anleitung
Unsloth Studio stellt automatisch die idealen MTP-Einstellungen ein, optimiert für Ihre spezifische Hardware (Mac, CPU, GPU usw.) – Sie können sie später dennoch ändern.
Qwen3.6 MTP suchen und herunterladen
Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zum Studio-Chat Tab und suchen Sie in der Suchleiste nach Qwen3.6 MTP und laden Sie das gewünschte Modell und die gewünschte Quantisierung herunter.
Qwen3.6 MTP ausführen
Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können außerdem die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.
Für weitere Informationen können Sie unseren Inferenzleitfaden für Unsloth Studio. Unten hat die 2-Bit-Qwen3.6-MTP-GGUF 10+ Tool-Aufrufe ausgeführt, 10 Websites durchsucht und Python-Code ausgeführt:
🦙 Llama.cpp-Anleitung für MTP
Installieren Sie die neueste Version von llama.cpp auf GitHub hier. Sie können auch die unten stehenden Build-Anweisungen befolgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren Sie dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.
Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ähnelt ollama run . Verwenden Sie export LLAMA_CACHE="folder" um llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Führen Sie einen der Befehle für die jeweiligen Modelle aus:
MTP Qwen3.6-27B:
Denkmodus:
Bitte sehen Sie sich Qwen3.6s neues Denken beibehalten.
Allgemeine Aufgaben:
Für präzise Coding-Aufgaben ändern Sie: temperature=0,6
Nicht-Denkmodus:
Allgemeine Aufgaben:
MTP Qwen3.6-35B-A3B:
Denkmodus:
Bitte sehen Sie sich Qwen3.6s neues Denken beibehalten.
Allgemeine Aufgaben:
Für präzise Coding-Aufgaben ändern Sie: temperature=0,6
Nicht-Denkmodus:
Allgemeine Aufgaben:
Laden Sie das Modell über den unten stehenden Code herunter (nach der Installation von pip install huggingface_hub hf_transfer). Sie können Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens die dynamische 2-Bit-Quantisierung zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führen Sie das Modell im Gesprächsmodus aus:
🦙 Llama.cpp-Anleitung
Für diesen Leitfaden verwenden wir Dynamic 4-Bit, das auf einem 24-GB-RAM- / Mac-Gerät hervorragend für schnelle Inferenz auf llama.cpp. Da das Modell in voller F16-Präzision nur etwa 72 GB groß ist, müssen wir uns um die Leistung nicht allzu viele Sorgen machen. Sehen Sie sich unsere GGUF-Sammlung an.
Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch die unten stehenden Build-Anweisungen befolgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren Sie dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.
Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ähnelt ollama run . Verwenden Sie export LLAMA_CACHE="folder" um llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Führen Sie einen der Befehle für die jeweiligen Modelle aus:
Qwen3.6-27B:
Denkmodus:
Bitte sehen Sie sich Qwen3.6s neues Denken beibehalten.
Allgemeine Aufgaben:
Für präzise Coding-Aufgaben ändern Sie: temperature=0,6
Nicht-Denkmodus:
Allgemeine Aufgaben:
Qwen3.6-35B-A3B:
Denkmodus:
Bitte sehen Sie sich Qwen3.6s neues Denken beibehalten.
Allgemeine Aufgaben:
Für präzise Coding-Aufgaben ändern Sie: temperature=0,6
Nicht-Denkmodus:
Allgemeine Aufgaben:
Laden Sie das Modell über den unten stehenden Code herunter (nach der Installation von pip install huggingface_hub hf_transfer). Sie können Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens die dynamische 2-Bit-Quantisierung zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führen Sie das Modell im Gesprächsmodus aus:
Llama-Server- & OpenAI-Completion-Bibliothek
Um Qwen3.6 produktiv einzusetzen, verwenden wir llama-server Starten Sie in einem neuen Terminal, z. B. über tmux, das Modell mit:
Dann in einem neuen Terminal, nachdem Sie pip install openaiausgeführt haben, tun Sie Folgendes:
🍎 MLX Dynamic Quants
Wir haben außerdem dynamische Qwen3.6-4-Bit- und 8-Bit-Quantisierungen für MacOS-Geräte hochgeladen! Unser MLX-Quantisierungsalgorithmus entwickelt sich noch weiter, und wir verfeinern ihn aktiv überall dort, wo Verbesserungen möglich sind.
Sie können alle MLX-Modelle in Unsloth Studio!
Qwen3.6-27B MLX:
Qwen3.6-35B-A3B MLX:
Zum Ausprobieren verwenden Sie:
Unten finden Sie die KL-Divergenz-(KLD)- und Perplexity-(PPL)-Werte für Qwen3.6-27B (niedriger ist besser):
⚡️NVFP4
Sie können unsere NVFP4-Quants jetzt mit MTP-Tensoren ausführen, die direkt in den NVFP4-Quant integriert sind. Beide vLLM und SGLang funktionieren dafür. Wir haben vllm==0.22.0 und sglang==0.5.9 (möglicherweise müssen Sie SGLang main verwenden).
Qwen3.6-35B-A3B NVFP4: huggingface.co/unsloth/Qwen3.6-35B-A3B-NVFP4
Qwen3.6-27B NVFP4: huggingface.co/unsloth/Qwen3.6-27B-NVFP4
vLLM:
SGLang:
💡 Denken: Aktivieren/Deaktivieren + Denken beibehalten
Qwen3.6 hat außerdem Denken beibehalten welches den Denkverlauf aus der vorherigen Unterhaltung beibehält. Dies erhöht die Anzahl der Tokens, die Sie verwenden, kann aber die Genauigkeit in fortgesetzten Gesprächen erhöhen. Unsloth Studio hat für Qwen3.6 die Umschalter 'Think' und 'Preserved Thinking':

Um zu aktivieren Denken beibehalten in llama.cpp verwenden Sie (ändern Sie zu 'true' oder 'false') 'preserve_thinking' anstelle von 'enable_thinking' oder 'disable_thinking'.
Für normales Denken können Sie das Denken in llama.cpp mit den folgenden Befehlen aktivieren / deaktivieren. Verwenden Sie 'true' und 'false' austauschbar.
Linux, MacOS, WSL:
Windows / Powershell:
Als Beispiel für Qwen3.6-35B-A3B, um das Beibehalten des Denkens zu aktivieren (standardmäßig aktiviert):
Und dann in Python:
👨💻 OpenAI Codex & Claude Code
Um das Modell über lokale agentische Coding-Workloads auszuführen, können Sie unsere Anleitung befolgen. Ändern Sie einfach den Modellnamen in Ihre 'Qwen3.6'-Variante und stellen Sie sicher, dass Sie die korrekten Qwen3.6-Parameter und Nutzungsanweisungen befolgen. Verwenden Sie das llama-server das wir gerade eben eingerichtet haben.
Nachdem Sie beispielsweise die Anweisungen für Claude Code befolgt haben, sehen Sie:

Dann können wir zum Beispiel fragen Erstellen Sie ein Python-Spiel für Schach :



📊 Benchmarks
Unsloth GGUF-Benchmarks
Wir haben Mean-KL-Divergenz-Benchmarks für Qwen3.6-35-A3B-GGUFs über verschiedene Anbieter hinweg durchgeführt, um Ihnen bei der Auswahl des besten Quants zu helfen.
Die KL-Divergenz platziert nahezu alle Unsloth-GGUFs auf der SOTA-Pareto-Grenzlinie
KLD zeigt, wie gut ein quantisiertes Modell der ursprünglichen BF16-Ausgabeverteilung entspricht, was die erhaltene Genauigkeit anzeigt.
Damit ist Unsloth in 21 von 22 Größen das leistungsstärkste
Nur Q6_K wurde für mehr dynamische Schichten aktualisiert, und wir haben eine neue
UD-IQ4_NL_XLQuant

MTP-Benchmarks
Wir haben die neuen Quants, die wir für 27B- und 35B-MoE erstellt haben, benchmarkiert. Insgesamt werden dichte Modelle mit MTP viel stärker beschleunigt (1,4-2x) als MoE-Modelle (1,15-1,25x).
Damit kann Qwen3.6 27B nun mit UD-Q2_K_XL 140 Token/s generieren und Qwen3.6 35B-A3B 220 Token/s generieren! Einige der Durchsatzwerte sind verrauscht, ziehen Sie also nicht den Schluss, dass einige Quants langsamer sind als andere.

Beim durchschnittlichen Speedup sehen wir 1,4x für dichte Modelle bei Draft-Tokens = 2 und für das MoE etwa 1,15 bis 1,2x.

Wir empfehlen nicht mehr als 2 Draft-Tokens, da die Akzeptanzrate mit 4 Draft-Tokens drastisch von 83 % auf 50 % sinkt und die Forward-Pässe für MTP dadurch weniger vorteilhaft werden.

Offizielle Qwen-Benchmarks
Qwen3.6-27B

Qwen3.6-35B-A3B

Zuletzt aktualisiert
War das hilfreich?


