💜Qwen3.5 - Anleitung zum lokalen Betrieb

Führe die neuen Qwen3.5-LLMs lokal auf deinem Gerät aus, einschließlich Medium: Qwen3.5-35B-A3B, 27B, 122B-A10B, Small: Qwen3.5-0.8B, 2B, 4B, 9B und 397B-A17B!

Qwen3.5 ist Alibabas neue Modellfamilie, einschließlich Qwen3.5-35B-A3B, 27B, 122B-A10B und 397B-A17B und die neue Klein Serie: Qwen3.5-0.8B, 2B, 4B und 9B. Die multimodalen Hybrid-Reasoning-LLMs liefern die stärksten Leistungen für ihre Größe. Sie unterstützen 256K Kontext über 201 Sprachen, haben Denken + nicht-Denken und zeichnen sich beim agentischen Codieren, Vision, Chat und Aufgaben mit langem Kontext aus. Die 35B- und 27B-Modelle laufen auf einem 22GB Mac / RAM-Gerät. Siehe alle GGUFs hierarrow-up-right.

circle-check

Alle Uploads verwenden Unsloth Dynamic 2.0arrow-up-right für SOTA-Quantisierungsleistung - daher werden in 4-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Qwen für die Bereitstellung von Day-Zero-Zugriff für Unsloth. Du kannst auch feinabstimmen Qwen3.5 mit Unsloth.

circle-info

Um Denken zu aktivieren oder zu deaktivieren siehe Qwen3.5.Qwen3.5 Small-Modelle sind standardmäßig deaktiviert. Siehe auch LM Studio Anleitung um den Denk-Schalter zu aktivieren.

35B-A3B27B122B-A10B397B-A17BQwen3.5 feinabstimmen0.8B • 2B • 4B • 9B

⚙️ Nutzungsanleitung

Tabelle: Anforderungen an Inferenz-Hardware (Einheiten = Gesamtspeicher: RAM + VRAM oder Unified Memory)

Qwen3.5
3-Bit
4-Bit
6-Bit
8-Bit
BF16

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

14 GB

17 GB

24 GB

30 GB

54 GB

17 GB

22 GB

30 GB

38 GB

70 GB

60 GB

70 GB

106 GB

132 GB

245 GB

180 GB

214 GB

340 GB

512 GB

810 GB

circle-check

Zwischen 27B und 35B-A3B, verwende 27B, wenn du etwas genauere Ergebnisse möchtest und nicht auf deinem Gerät platzst. Wähle 35B-A3B, wenn du eine deutlich schnellere Inferenz möchtest.

Empfohlene Einstellungen

  • Maximales Kontextfenster: 262,144 (kann via YaRN auf 1M erweitert werden)

  • presence_penalty = 0.0 bis 2.0 Standardmäßig ist dies aus, aber um Wiederholungen zu reduzieren, kannst du dies verwenden; jedoch kann die Verwendung eines höheren Werts zu leichter Leistungseinbuße

  • Angemessene Ausgabelänge: 32,768 Token für die meisten Anfragen

circle-info

Wenn du Unsinn erhältst, könnte deine Kontextlänge zu niedrig eingestellt sein. Oder versuche --cache-type-k bf16 --cache-type-v bf16 was helfen könnte.

Da Qwen3.5 Hybrid-Reasoning ist, haben Denk- und Nicht-Denk-Modus unterschiedliche Einstellungen:

Denkmodus:

Allgemeine Aufgaben
Präzise Codieraufgaben (z. B. WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

Denkmodus für allgemeine Aufgaben:

Denkmodus für präzise Codieraufgaben:

Instruct (Nicht-Denk) Modus-Einstellungen:

Allgemeine Aufgaben
Reasoning-Aufgaben

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

circle-exclamation

Instruct (Nicht-Denk) für allgemeine Aufgaben:

Instruct (Nicht-Denk) für Reasoning-Aufgaben:

Qwen3.5 Inferenz-Tutorials:

Da Qwen3.5 in vielen verschiedenen Größen kommt, verwenden wir Dynamic 4-bit MXFP4_MOE GGUF-Varianten für alle Inferenz-Workloads. Klicke unten, um zu den jeweiligen Modellanweisungen zu navigieren:

Qwen3.5-35B-A3B27B122B-A10B397B-A17BKlein (0.8B • 2B • 4B • 9B)LM Studio

Unsloth Dynamic GGUF-Uploads:

circle-exclamation

🦙 Llama.cpp Anleitungen

Qwen3.5-35B-A3B

Für diese Anleitung verwenden wir Dynamic 4-bit, das auf einem 24GB RAM / Mac-Gerät hervorragende Ergebnisse für schnelle Inferenz liefert. Da das Modell bei voller F16-Präzision nur etwa 72GB groß ist, müssen wir uns nicht allzu sehr um Leistung sorgen. GGUF: Qwen3.5-35B-A3B-GGUFarrow-up-right

Für diese Tutorials werden wir llama.cpparrow-up-right für schnelle lokale Inferenz nutzen, insbesondere wenn du eine CPU hast.

1

Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp an einem bestimmten Ort gespeichert wird. Das Modell hat eine maximale Kontextlänge von 256K.

Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Denk-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Führe dann das Modell im Konversationsmodus aus:

Qwen3.5 Small (0.8B • 2B • 4B • 9B)

circle-exclamation

Für die Qwen3.5 Small-Serie, da sie so klein sind, musst du nur den Modellnamen in den Skripten auf die gewünschte Variante ändern. Für diese spezielle Anleitung verwenden wir die 9B-Parameter-Variante. Um sie alle nahezu in voller Präzision auszuführen, benötigst du nur ein Gerät mit 12GB RAM / VRAM / Unified Memory. GGUFs:

1

Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du llama.cpp Direkt zum Laden von Modellen kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp an einem bestimmten Ort gespeichert wird. Das Modell hat eine maximale Kontextlänge von 256K.

Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:

circle-check

Denkmodus (standardmäßig deaktiviert)

triangle-exclamation

Allgemeine Aufgaben:

circle-check

Nicht-Denk-Modus ist standardmäßig bereits aktiviert

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Führe dann das Modell im Konversationsmodus aus:

Qwen3.5-27B

Für diese Anleitung verwenden wir Dynamic 4-bit, das auf einem 18GB RAM / Mac-Gerät hervorragend für schnelle Inferenz funktioniert. GGUF: Qwen3.5-27B-GGUFarrow-up-right

1

Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp an einem bestimmten Ort gespeichert wird. Das Modell hat eine maximale Kontextlänge von 256K.

Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Denk-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Führe dann das Modell im Konversationsmodus aus:

Qwen3.5-122B-A10B

Für diese Anleitung verwenden wir Dynamic 4-bit, das auf einem 70GB RAM / Mac-Gerät hervorragend für schnelle Inferenz funktioniert. GGUF: Qwen3.5-122B-A10B-GGUFarrow-up-right

1

Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp an einem bestimmten Ort gespeichert wird. Das Modell hat eine maximale Kontextlänge von 256K.

Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Denk-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Führe dann das Modell im Konversationsmodus aus:

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B befindet sich in derselben Leistungsklasse wie Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2. Der vollständige 397B-Checkpoint belegt ~807GB auf der Festplatte, aber via Unsloths 397B GGUFsarrow-up-right kannst du ausführen:

  • 3-Bit: passt auf 192GB RAM Systeme (z. B. ein 192GB Mac)

  • 4-Bit (MXFP4): passt auf 256GB RAM. Unsloth 4-Bit dynamic UD-Q4_K_XL ist ~214GB auf der Festplatte - lädt direkt auf einem 256GB M3 Ultra

  • Läuft auf einer einzelnen 24GB GPU + 256GB System-RAM via MoE-Offloading, erreicht 25+ Tokens/s

  • 8-Bit benötigt ~512GB RAM/VRAM

circle-info

Siehe 397B-Quantisierungs-Benchmarks wie Unsloth-GGUFs performen.

1

Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp um an einem bestimmten Ort zu speichern. Denke daran, dass das Modell nur eine maximale Kontextlänge von 256K hat.

Folge dem für Denken Modus:

Folge dem für nicht-denkend Modus:

3

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Du kannst --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, also wie viele Schichten. Versuche, es anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast.

👾 LM Studio Anleitung

Für diese Anleitung werden wir LM Studioarrow-up-right, eine einheitliche UI-Schnittstelle zum Ausführen von LLMs, verwenden. Der '💡Thinking' und 'Non-thinking' Schalter erscheint möglicherweise nicht standardmäßig, daher sind zusätzliche Schritte erforderlich, um ihn zum Laufen zu bringen.

1

Herunterladen LM Studioarrow-up-right für dein Gerät. Öffne dann Model Search, suche nach 'unsloth/qwen3.5' und lade die gewünschte GGUF (quant) herunter.

2

Anleitung für den Denk-Schalter: Nach dem Herunterladen öffne dein Terminal / PowerShell und versuche: lms --help. Wenn LM Studio dann normal mit vielen Befehlen erscheint, führe aus:

Dies holt eine YAML-Datei, die es deinem GGUF ermöglicht, den '💡Thinking' und 'Non-thinking' Schalter anzuzeigen. Du kannst 4b durch die gewünschte Quantisierung ersetzen, die du haben möchtest.

Andernfalls kannst du zu unserer LM Studio-Seitearrow-up-right gehen und die spezifische YAML-Datei herunterladen.

3

Starte LM Studio neu und lade dann dein heruntergeladenes Modell (mit dem spezifischen Denk-Schalter). Du solltest jetzt den Denk-Schalter sehen. Vergiss nicht, die korrekten Parameter.

🦙 Llama-server Serving & OpenAIs Completion-Bibliothek

Um Qwen3.5-397B-A17B für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:

Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast, mache:

🤔 Wie man Reasoning & Denken aktiviert oder deaktiviert

Für die folgenden Befehle kannst du 'true' und 'false' austauschbar verwenden. Um den Denk-Schalter für LM Studio zu erhalten, lies unsere Anleitung.

circle-info

Um deaktivieren Denken / Reasoning, verwende innerhalb von llama-server:

Wenn du auf Windows oder in Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":false}"

circle-info

Um aktivieren Denken / Reasoning, verwende innerhalb von llama-server:

Wenn du auf Windows oder in Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":true}"

triangle-exclamation

Als Beispiel für Qwen3.5-9B, um Denken zu aktivieren (standardmäßig deaktiviert):

Und dann in Python:

👨‍💻 OpenAI Codex & Claude Code

Um das Modell für lokale, agentische Coding-Workloads auszuführen, kannst du unserer Anleitung folgen. Ändere einfach den Modellnamen in die gewünschte 'Qwen3.5'-Variante und stelle sicher, dass du die richtigen Qwen3.5-Parameter und Nutzungsanweisungen befolgst. Verwende das llama-server das wir gerade eingerichtet haben.

Nachdem du z. B. die Anweisungen für Claude Code befolgt hast, wirst du Folgendes sehen:

Dann können wir z. B. fragen Erstelle ein Python-Spiel für Schach :

🔨Tool-Aufrufe mit Qwen3.5

Siehe Tool Calling Guide für mehr Details, wie man Tool-Aufrufe macht. In einem neuen Terminal (wenn du tmux verwendest, nutze CTRL+B+D), erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:

Wir verwenden dann die untenstehenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:

Nachdem Qwen3.5 gestartet wurde über llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für weitere Details, können wir dann einige Tool-Aufrufe durchführen.

📊 Benchmarks

Unsloth GGUF-Benchmarks

Wir haben Qwen3.5-35B Unsloth Dynamic-Quants aktualisiert und damit SOTA bei nahezu allen Punkten. Wir führten über 150 KL-Divergenz-Benchmarks durch, insgesamt 9 TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen. Wir haben außerdem einen Tool-Aufruf Chat-Vorlage Fehler (betrifft alle Quant-Uploaders)

  • Alle GGUFs jetzt aktualisiert mit einer verbesserten Quantisierungs- Algorithmus.

  • Alle verwenden unser neues imatrix-Daten. Siehe einige Verbesserungen in Chat-, Coding-, Langkontext- und Tool-Aufruf-Anwendungsfällen.

  • Qwen3.5-35B-A3B GGUFs wurden aktualisiert, um neue Fixes zu verwenden (112B, 27B werden noch konvertiert, erneut herunterladen, sobald sie aktualisiert sind)

  • 99,9% KL-Divergenz zeigt SOTA an der Pareto-Front für UD-Q4_K_XL, IQ3_XXS und mehr.

  • MXFP4 wird zurückgezogen aus allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, außer für reines MXFP4_MOE.

35B-A3B - KLD-Benchmarks (niedriger ist besser)
122B-A10B - KLD-Benchmarks (niedriger ist besser)

LESEN SIE HIER UNSERE DETAILLIERTE QWEN3.5-ANALYSE + BENCHMARKS:

chart-fftQwen3.5 GGUF-Benchmarkschevron-right

Qwen3.5-397B-A17B-Benchmarks

Benjamin Marie (Drittanbieter) hat gebenchmarktarrow-up-right Qwen3.5-397B-A17B unter Verwendung von Unsloth GGUFs auf einem 750-Prompt-Mix-Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell Fehler macht im Vergleich zum Original).

Wichtige Ergebnisse (Genauigkeit; Änderung vs. Original; relative Fehlerzunahme):

  • Originalgewichte: 81.3%

  • UD-Q4_K_XL: 80.5% (−0,8 Punkte; +4,3% relative Fehlerzunahme)

  • UD-Q3_K_XL: 80.7% (−0,6 Punkte; +3,5% relative Fehlerzunahme)

UD-Q4_K_XL und UD-Q3_K_XL bleiben dem Original extrem nahe, weit unter einem Genauigkeitsverlust von 1 Punkt in dieser Suite, was Ben andeutet, dass man den Speicherbedarf stark reduzieren kann (~500 GB weniger) mit geringen bis keinen praktischen Verlusten bei den getesteten Aufgaben.

Wie man wählt: Dass Q3 hier leicht besser als Q4 abschneidet, ist bei dieser Größenordnung als normale Lauf-zu-Lauf-Varianz vollkommen plausibel, daher behandeln Sie Q3 und Q4 als effektiv gleichwertige Qualität in diesem Benchmark:

  • Wählen Sie Q3 wenn Sie den kleinsten Footprint / beste Speicherersparnisse wollen

  • Wählen Sie Q4 wenn Sie eine etwas konservativere Option mit ähnlichen Ergebnissen

Alle aufgeführten Quants nutzen unsere dynamische Methodik. Selbst UD-IQ2_M verwendet die gleiche dynamische Methodik, jedoch ist der Konvertierungsprozess anders als bei UD-Q2-K-XL wobei K-XL in der Regel schneller ist als UD-IQ2_M obwohl es größer ist, weshalb UD-IQ2_M besser abschneiden kann als UD-Q2-K-XL.

Offizielle Qwen-Benchmarks

Qwen3.5-35B-A3B, 27B und 122B-A10B-Benchmarks

Qwen3.5-4B- und 9B-Benchmarks

Qwen3.5-397B-A17B-Benchmarks

Zuletzt aktualisiert

War das hilfreich?