💜Qwen3.5 - Anleitung zur lokalen Ausführung

Führe die neuen Qwen3.5-LLMs lokal auf deinem Gerät aus, einschließlich Medium: Qwen3.5-35B-A3B, 27B, 122B-A10B, Small: Qwen3.5-0.8B, 2B, 4B, 9B und 397B-A17B!

Qwen3.5 ist Alibabas neue Modellsammlung, einschließlich Qwen3.5-35B-A3B, 27B, 122B-A10B und 397B-A17B und die neue Klein Serie: Qwen3.5-0.8B, 2B, 4B und 9B. Die multimodalen Hybrid-Reasoning-LLMs liefern die stärksten Leistungen für ihre Größen. Sie unterstützen 256K Kontext in 201 Sprachen, haben Denken + nicht-Denken und zeichnen sich bei agentischem Codieren, Vision, Chat und Aufgaben mit langem Kontext aus. Die 35B- und 27B-Modelle laufen auf einem 22GB Mac / RAM-Gerät. Siehe alle GGUFs hierarrow-up-right.

circle-check

Alle Uploads verwenden Unsloth Dynamic 2.0arrow-up-right für SOTA-Quantisierungsleistung - daher werden bei 4-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Qwen für die Bereitstellung des Day-Zero-Zugriffs für Unsloth. Du kannst auch feinabstimmen Qwen3.5 mit Unsloth.

circle-info

Um Denken zu aktivieren oder zu deaktivieren siehe Qwen3.5. Qwen3.5 Small-Modelle sind standardmäßig deaktiviert. Siehe auch LM Studio Anleitung um den Think-Schalter zu aktivieren.

35B-A3B27B122B-A10B397B-A17BFeinabstimmung Qwen3.50.8B • 2B • 4B • 9B

⚙️ Nutzungsanleitung

Tabelle: Inferenz-Hardwareanforderungen (Einheiten = Gesamtspeicher: RAM + VRAM oder Unified Memory)

Qwen3.5
3-Bit
4-Bit
6-Bit
8-Bit
BF16

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

14 GB

17 GB

24 GB

30 GB

54 GB

17 GB

22 GB

30 GB

38 GB

70 GB

60 GB

70 GB

106 GB

132 GB

245 GB

180 GB

214 GB

340 GB

512 GB

810 GB

circle-check

Zwischen 27B und 35B-A3B, verwende 27B, wenn du etwas genauere Ergebnisse möchtest und es nicht auf dein Gerät passt. Wähle 35B-A3B, wenn du viel schnellere Inferenz möchtest.

Empfohlene Einstellungen

  • Maximales Kontextfenster: 262,144 (kann via YaRN auf 1M erweitert werden)

  • presence_penalty = 0.0 bis 2.0 Standardmäßig ist dies ausgeschaltet, aber um Wiederholungen zu reduzieren, kannst du dies verwenden; ein höherer Wert kann jedoch zu leichter Leistungsabnahme

  • Ausreichende Ausgabelänge: 32,768 Tokens für die meisten Anfragen

circle-info

Wenn du Kauderwelsch erhältst, ist möglicherweise deine Kontextlänge zu niedrig eingestellt. Oder versuche --cache-type-k bf16 --cache-type-v bf16 was helfen könnte.

Da Qwen3.5 hybrides Reasoning ist, haben Denk- und Nicht-Denk-Modus unterschiedliche Einstellungen:

Denkmodus:

Allgemeine Aufgaben
Präzise Codieraufgaben (z. B. WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

Denkmodus für allgemeine Aufgaben:

Denkmodus für präzise Codieraufgaben:

Instruct (Nicht-Denk) Modus Einstellungen:

Allgemeine Aufgaben
Reasoning-Aufgaben

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

circle-exclamation

Instruct (Nicht-Denk) für allgemeine Aufgaben:

Instruct (Nicht-Denk) für Reasoning-Aufgaben:

Qwen3.5 Inferenz-Tutorials:

Weil Qwen3.5 in vielen verschiedenen Größen kommt, verwenden wir Dynamic 4-Bit MXFP4_MOE GGUF-Varianten für alle Inferenz-Workloads. Klicke unten, um zu den jeweiligen Modellanweisungen zu navigieren:

Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall (0.8B • 2B • 4B • 9B)LM Studio

Unsloth Dynamic GGUF Uploads:

circle-exclamation

🦙 Llama.cpp Anleitungen

Qwen3.5-35B-A3B

Für diese Anleitung werden wir Dynamic 4-Bit verwenden, das auf einem 24GB RAM / Mac-Gerät für schnelle Inferenz großartig funktioniert. Da das Modell bei voller F16-Präzision nur etwa 72GB groß ist, müssen wir uns nicht allzu sehr um Leistung sorgen. GGUF: Qwen3.5-35B-A3B-GGUFarrow-up-right

Für diese Tutorials werden wir llama.cpparrow-up-right für schnelle lokale Inferenz verwenden, besonders wenn du eine CPU hast.

1

Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2

Wenn du direkt llama.cpp verwenden möchtest, um Modelle zu laden, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Folge einem der spezifischen Befehle unten, je nach Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Denk-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit Dynamic-Quant zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann führe das Modell im Konversationsmodus aus:

Qwen3.5 Small (0.8B • 2B • 4B • 9B)

circle-exclamation

Für die Qwen3.5 Small-Serie, da sie so klein sind, musst du nur den Modellnamen in den Skripten auf die gewünschte Variante ändern. Für diese spezielle Anleitung verwenden wir die 9B-Parameter-Variante. Um sie alle in nahezu voller Präzision auszuführen, benötigst du nur ein Gerät mit 12GB RAM / VRAM / Unified Memory. GGUFs:

1

Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du direkt llama.cpp Wenn du direkt Modelle laden möchtest, kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Folge einem der spezifischen Befehle unten, je nach Anwendungsfall:

circle-check

Denkmodus (standardmäßig deaktiviert)

triangle-exclamation

Allgemeine Aufgaben:

circle-check

Nicht-Denk-Modus ist standardmäßig bereits aktiviert

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit Dynamic-Quant zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann führe das Modell im Konversationsmodus aus:

Qwen3.5-27B

Für diese Anleitung werden wir Dynamic 4-Bit verwenden, das auf einem 18GB RAM / Mac-Gerät für schnelle Inferenz großartig funktioniert. GGUF: Qwen3.5-27B-GGUFarrow-up-right

1

Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du direkt llama.cpp verwenden möchtest, um Modelle zu laden, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Folge einem der spezifischen Befehle unten, je nach Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Denk-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit Dynamic-Quant zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann führe das Modell im Konversationsmodus aus:

Qwen3.5-122B-A10B

Für diese Anleitung werden wir Dynamic 4-Bit verwenden, das auf einem 70GB RAM / Mac-Gerät für schnelle Inferenz großartig funktioniert. GGUF: Qwen3.5-122B-A10B-GGUFarrow-up-right

1

Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du direkt llama.cpp verwenden möchtest, um Modelle zu laden, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Folge einem der spezifischen Befehle unten, je nach Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Denk-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit Dynamic-Quant zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann führe das Modell im Konversationsmodus aus:

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B befindet sich in derselben Leistungsstufe wie Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2. Der vollständige 397B-Checkpoint ist ~807GB auf der Festplatte, aber über Unsloths 397B GGUFsarrow-up-right kannst du ausführen:

  • 3-Bit: passt auf 192GB RAM Systeme (z. B. ein 192GB Mac)

  • 4-Bit (MXFP4): passt auf 256GB RAM. Unsloth 4-Bit dynamic UD-Q4_K_XL ist ~214GB auf der Festplatte - lädt direkt auf einem 256GB M3 Ultra

  • Läuft auf einer einzelnen 24GB GPU + 256GB Systemspeicher via MoE-Offloading, erreicht 25+ Tokens/s

  • 8-Bit benötigt ~512GB RAM/VRAM

circle-info

Siehe 397B-Quantisierungs-Benchmarks wie Unsloth-GGUFs performen.

1

Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du direkt llama.cpp verwenden möchtest, um Modelle zu laden, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp um an einen bestimmten Ort zu speichern. Denk daran, das Modell hat nur eine maximale Kontextlänge von 256K.

Folge dem für Denken Modus:

Folge dem für nicht-denkend Modus:

3

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit Dynamic-Quant zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Du kannst bearbeiten --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, wie viele Schichten. Versuche es anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast.

👾 LM Studio Anleitung

Für diese Anleitung verwenden wir LM Studioarrow-up-right, eine einheitliche UI-Oberfläche zum Ausführen von LLMs. Der '💡Thinking' und 'Non-thinking' Schalter erscheint möglicherweise nicht standardmäßig, daher sind einige zusätzliche Schritte erforderlich, um ihn zu aktivieren.

1

Lade herunter LM Studioarrow-up-right für dein Gerät. Dann öffne die Modellsuche, suche nach 'unsloth/qwen3.5' und lade das gewünschte GGUF (quant) herunter.

2

Anleitung für den Thinking-Schalter: Nach dem Herunterladen öffne dein Terminal / PowerShell und versuche: lms --help. Wenn LM Studio dann normal mit vielen Befehlen erscheint, führe aus:

Dies wird eine YAML-Datei holen, die deinem GGUF ermöglicht, den '💡Thinking' und 'Non-thinking' Schalter anzuzeigen. Du kannst 4b auf die gewünschte Quantisierung ändern, die du haben möchtest.

Alternativ kannst du zu unserer LM Studio-Seitearrow-up-right gehen und die spezifische YAML-Datei herunterladen.

3

Starte LM Studio neu, lade dann dein heruntergeladenes Modell (mit dem spezifischen Thinking-Schalter, den du heruntergeladen hast). Du solltest nun den Thinking-Schalter sehen. Vergiss nicht, die korrekten Parameter.

🦙 Llama-server Serving & OpenAIs Completion-Bibliothek

Um Qwen3.5-397B-A17B für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, setze das Modell wie folgt ein:

Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast, mache:

🤔 Wie man Reasoning & Thinking aktiviert oder deaktiviert

Für die untenstehenden Befehle kannst du 'true' und 'false' austauschbar verwenden. Um Denken-Schalter für LM Studio zu haben, lies unsere Anleitung.

circle-info

Um deaktivieren Denken / Reasoning, verwende innerhalb von llama-server:

Wenn du auf Windows oder in Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":false}"

circle-info

Um aktivieren Denken / Reasoning, verwende innerhalb von llama-server:

Wenn du auf Windows oder in Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":true}"

triangle-exclamation

Als Beispiel für Qwen3.5-9B, um Denken zu aktivieren (standardmäßig deaktiviert):

Und dann in Python:

👨‍💻 OpenAI Codex & Claude Code

Um das Modell für lokale agentische Coding-Workloads auszuführen, kannst du unserer Anleitung folgen. Ändere einfach den Modellnamen auf die gewünschte 'Qwen3.5'-Variante und stelle sicher, dass du die richtigen Qwen3.5-Parameter und Nutzungsanweisungen befolgst. Verwende das llama-server das wir gerade eingerichtet haben.

Nachdem du z. B. die Anleitung für Claude Code befolgt hast, wirst du sehen:

Wir können dann zum Beispiel fragen Erstelle ein Python-Spiel für Schach :

🔨Tool-Calling mit Qwen3.5

Siehe Tool Calling Guide für weitere Details, wie man Tool-Calling macht. In einem neuen Terminal (wenn du tmux verwendest, benutze CTRL+B+D), erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:

Wir verwenden dann die untenstehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:

Nachdem Qwen3.5 gestartet wurde über llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für mehr Details, können wir dann einige Tool-Aufrufe durchführen.

📊 Benchmarks

Unsloth GGUF Benchmarks

Wir haben Qwen3.5-35B Unsloth Dynamic Quants aktualisiert ist SOTA bei nahezu allen Punkten. Wir haben über 150 KL-Divergenz-Benchmarks durchgeführt, insgesamt 9TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen. Wir haben auch einen Tool-Aufruf Chat-Vorlage Fehler (betroffen sind alle Quant-Uploader)

  • Alle GGUFs jetzt aktualisiert mit einer verbesserten Quantisierungs- Algorithmus.

  • Alle verwenden unser neues imatrix-Daten. Siehe einige Verbesserungen in Chat-, Coding-, Langkontext- und Tool-Calling-Anwendungsfällen.

  • Qwen3.5-35B-A3B GGUFs wurden aktualisiert, um neue Fixes zu verwenden (112B, 27B werden noch konvertiert, erneut herunterladen, sobald sie aktualisiert sind)

  • 99,9% KL-Divergenz zeigt SOTA auf der Pareto-Front für UD-Q4_K_XL, IQ3_XXS & mehr.

  • Rückzug von MXFP4 aus allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, außer für reines MXFP4_MOE.

35B-A3B - KLD-Benchmarks (niedriger ist besser)
122B-A10B - KLD-Benchmarks (niedriger ist besser)

LESEN SIE UNSERE DETAILLIERTE QWEN3.5-ANALYSE + BENCHMARKS HIER:

chart-fftQwen3.5 GGUF-Benchmarkschevron-right

Qwen3.5-397B-A17B Benchmarks

Benjamin Marie (Drittpartei) hat gebenchmarktarrow-up-right Qwen3.5-397B-A17B unter Verwendung von Unsloth GGUFs auf einem 750-Prompt-Mix-Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell Fehler macht vs. dem Original).

Wichtige Ergebnisse (Genauigkeit; Veränderung vs. Original; relative Fehlerzunahme):

  • Originalgewichte: 81.3%

  • UD-Q4_K_XL: 80.5% (−0,8 Punkte; +4,3% relative Fehlerzunahme)

  • UD-Q3_K_XL: 80.7% (−0,6 Punkte; +3,5% relative Fehlerzunahme)

UD-Q4_K_XL und UD-Q3_K_XL bleiben dem Original extrem nahe, weit unter einem Genauigkeitsverlust von 1 Punkt in dieser Suite, was Ben andeutet, dass man den Speicherbedarf drastisch reduzieren kann (~500 GB weniger) mit wenig bis keinem praktischen Verlust bei den getesteten Aufgaben.

Wie man wählt: Dass Q3 hier leicht besser abschneidet als Q4 ist völlig plausibel als normale Lauf-zu-Lauf-Varianz in diesem Maßstab, also behandeln Sie Q3 und Q4 als praktisch gleichwertige Qualität in diesem Benchmark:

  • Wähle Q3 wenn du das kleinste Fußabdruck / beste Einsparung im Speicher

  • Wähle Q4 wenn du eine etwas konservativere Option mit ähnlichen Ergebnissen

Alle aufgelisteten Quants nutzen unsere dynamische Methodik. Sogar UD-IQ2_M verwendet dieselbe dynamische Methodik, jedoch ist der Konvertierungsprozess anders als bei UD-Q2-K-XL wobei K-XL normalerweise schneller ist als UD-IQ2_M obwohl es größer ist, daher ist das der Grund, warum UD-IQ2_M besser abschneiden könnte als UD-Q2-K-XL.

Offizielle Qwen-Benchmarks

Qwen3.5-35B-A3B, 27B und 122B-A10B Benchmarks

Qwen3.5-4B und 9B Benchmarks

Qwen3.5-397B-A17B Benchmarks

Zuletzt aktualisiert

War das hilfreich?