💜Qwen3.5 - Anleitung zum lokalen Ausführen

Führe die neuen Qwen3.5-LLMs lokal auf deinem Gerät aus, einschließlich Medium: Qwen3.5-35B-A3B, 27B, 122B-A10B, Small: Qwen3.5-0.8B, 2B, 4B, 9B und 397B-A17B!

Qwen3.5 ist Alibabas neue Modellsammlung, einschließlich Qwen3.5-35B-A3B, 27B, 122B-A10B und 397B-A17B und der neuen Small Serie: Qwen3.5-0.8B, 2B, 4B und 9B. Die multimodalen Hybrid-Reasoning-LLMs liefern die stärksten Leistungen für ihre Größen. Sie unterstützen 256K Kontext über 201 Sprachen, haben Denken + nicht-Denken, und glänzen bei agentischen Codier-, Vision-, Chat- und Langkontext-Aufgaben. Die 35B- und 27B-Modelle laufen auf einem 22GB Mac / RAM-Gerät. Siehe alle GGUFs hierarrow-up-right.

circle-check

Alle Uploads verwenden Unsloth Dynamic 2.0arrow-up-right für SOTA-Quantisierungsleistung - daher werden bei 4-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Qwen, dass Unsloth Day-Zero-Zugriff gewährt wurde. Sie können auch feinabstimmen Qwen3.5 mit Unsloth.

circle-info

Um Denken zu aktivieren oder zu deaktivieren siehe Qwen3.5. Qwen3.5 Small-Modelle sind standardmäßig deaktiviert. Siehe auch LM Studio Anleitung um den Think-Schalter zu aktivieren.

35B-A3B27B122B-A10B397B-A17BFeinabstimmung Qwen3.50.8B • 2B • 4B • 9B

⚙️ Nutzungsanleitung

Tabelle: Inferenz-Hardwareanforderungen (Einheiten = Gesamtspeicher: RAM + VRAM oder Unified Memory)

Qwen3.5
3-Bit
4-Bit
6-Bit
8-Bit
BF16

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

14 GB

17 GB

24 GB

30 GB

54 GB

17 GB

22 GB

30 GB

38 GB

70 GB

60 GB

70 GB

106 GB

132 GB

245 GB

180 GB

214 GB

340 GB

512 GB

810 GB

circle-check

Zwischen 27B und 35B-A3B, verwenden Sie 27B, wenn Sie etwas genauere Ergebnisse möchten und es nicht auf Ihr Gerät passt. Wählen Sie 35B-A3B, wenn Sie deutlich schnellere Inferenz wünschen.

Empfohlene Einstellungen

  • Maximales Kontextfenster: 262,144 (kann via YaRN auf 1M erweitert werden)

  • presence_penalty = 0.0 bis 2.0 Standardmäßig ist dies aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden, jedoch kann die Verwendung eines höheren Wertes zu leichter Leistungsabnahme

  • Angemessene Ausgabelänge: 32,768 Tokens für die meisten Anfragen

circle-info

Wenn Sie Kauderwelsch erhalten, ist Ihre Kontextlänge möglicherweise zu niedrig eingestellt. Oder versuchen Sie --cache-type-k bf16 --cache-type-v bf16 was helfen könnte.

Da Qwen3.5 Hybrid-Reasoning ist, haben Denk- und Nicht-Denk-Modus unterschiedliche Einstellungen:

Denkmodus:

Allgemeine Aufgaben
Präzise Codieraufgaben (z. B. WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

Denkmodus für allgemeine Aufgaben:

Denkmodus für präzise Codieraufgaben:

Instruct (Nicht-Denk) Modus Einstellungen:

Allgemeine Aufgaben
Reasoning-Aufgaben

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

circle-exclamation

Instruct (Nicht-Denk) für allgemeine Aufgaben:

Instruct (Nicht-Denk) für Reasoning-Aufgaben:

Qwen3.5 Inferenz-Tutorials:

Weil Qwen3.5 in vielen verschiedenen Größen kommt, werden wir Dynamic 4-bit verwenden MXFP4_MOE GGUF-Varianten für alle Inferenz-Workloads. Klicken Sie unten, um zu den vorgesehenen Modellanweisungen zu navigieren:

Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall (0.8B • 2B • 4B • 9B)LM Studio

Unsloth Dynamic GGUF Uploads:

circle-exclamation

Qwen3.5-35B-A3B

Für diese Anleitung werden wir Dynamic 4-bit verwenden, das auf einem 24GB RAM / Mac-Gerät großartige schnelle Inferenz ermöglicht. Da das Modell bei voller F16-Präzision nur etwa 72GB groß ist, müssen wir uns nicht allzu sehr um Leistung sorgen. GGUF: Qwen3.5-35B-A3B-GGUFarrow-up-right

🦙 Llama.cpp Anleitungen

Für diese Tutorials werden wir verwenden llama.cpparrow-up-right für schnelle lokale Inferenz, insbesondere wenn Sie eine CPU haben.

1

Beschaffen Sie das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.

2

Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Führen Sie einen der spezifischen Befehle unten aus, entsprechend Ihrem Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Denk-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen die Verwendung von mindestens 2-Bit Dynamic Quant UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Führen Sie dann das Modell im Konversationsmodus aus:

Qwen3.5 Small (0.8B • 2B • 4B • 9B)

circle-exclamation

Für die Qwen3.5 Small-Serie, da sie so klein sind, müssen Sie nur den Modellnamen in den Skripten auf die gewünschte Variante ändern. Für diese spezielle Anleitung verwenden wir die 9B-Parameter-Variante. Um sie alle in nahezu voller Präzision auszuführen, benötigen Sie nur ein Gerät mit 12GB RAM / VRAM / Unified Memory. GGUFs:

1

Beschaffen Sie das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.

2

Wenn Sie llama.cpp direkt zum Laden von Modellen können Sie Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Führen Sie einen der spezifischen Befehle unten aus, entsprechend Ihrem Anwendungsfall:

circle-check

Denkmodus (standardmäßig deaktiviert)

triangle-exclamation

Allgemeine Aufgaben:

circle-check

Nicht-Denk-Modus ist bereits standardmäßig aktiviert

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen die Verwendung von mindestens 2-Bit Dynamic Quant UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Führen Sie dann das Modell im Konversationsmodus aus:

Qwen3.5-27B

Für diese Anleitung werden wir Dynamic 4-bit verwenden, das auf einem 18GB RAM / Mac-Gerät großartige schnelle Inferenz ermöglicht. GGUF: Qwen3.5-27B-GGUFarrow-up-right

1

Beschaffen Sie das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.

2

Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Führen Sie einen der spezifischen Befehle unten aus, entsprechend Ihrem Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Denk-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können wählen MXFP4_MOE oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen die Verwendung von mindestens 2-Bit Dynamic Quant UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Führen Sie dann das Modell im Konversationsmodus aus:

Qwen3.5-122B-A10B

Für diese Anleitung werden wir Dynamic 4-bit verwenden, das auf einem 70GB RAM / Mac-Gerät großartige schnelle Inferenz ermöglicht. GGUF: Qwen3.5-122B-A10B-GGUFarrow-up-right

1

Beschaffen Sie das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.

2

Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Führen Sie einen der spezifischen Befehle unten aus, entsprechend Ihrem Anwendungsfall:

Denkmodus:

Präzise Codieraufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Denk-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können wählen MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen die Verwendung von mindestens 2-Bit Dynamic Quant UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Führen Sie dann das Modell im Konversationsmodus aus:

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B befindet sich in derselben Leistungsklasse wie Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2. Der vollständige 397B-Checkpoint belegt ~807GB auf der Festplatte, aber über Unsloths 397B-GGUFsarrow-up-right können Sie laufen:

  • 3-Bit: passt auf 192GB RAM Systeme (z. B. ein 192GB Mac)

  • 4-Bit (MXFP4): passt auf 256GB RAM. Unsloth 4-Bit dynamic UD-Q4_K_XL ist ~214GB auf der Festplatte - lädt direkt auf einem 256GB M3 Ultra

  • Läuft auf einer einzigen 24GB GPU + 256GB System-RAM via MoE-Offloading, erreicht 25+ Token/s

  • 8-Bit benötigt ~512GB RAM/VRAM

circle-info

Siehe 397B-Quantisierungs-Benchmarks wie Unsloth-GGUFs abschneiden.

1

Beschaffen Sie das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.

2

Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp um an einen bestimmten Ort zu speichern. Denken Sie daran, dass das Modell nur eine maximale Kontextlänge von 256K hat.

Folgen Sie dies für Denken Modus:

Folgen Sie dies für nicht-denkend Modus:

3

Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können wählen MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen die Verwendung von mindestens 2-Bit Dynamic Quant UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Sie können bearbeiten --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, wie viele Schichten. Versuchen Sie, dies anzupassen, wenn Ihre GPU nicht mehr ausreichend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

👾 LM Studio Anleitung

Für diese Anleitung verwenden wir LM Studioarrow-up-right, eine einheitliche UI-Oberfläche zum Ausführen von LLMs. Der '💡Thinking' und der 'Non-thinking' Schalter erscheinen möglicherweise nicht standardmäßig, daher sind einige zusätzliche Schritte erforderlich, um ihn zum Laufen zu bringen.

1

Laden Sie herunter LM Studioarrow-up-right für Ihr Gerät. Öffnen Sie dann die Modellsuche, suchen Sie nach 'unsloth/qwen3.5' und laden Sie die gewünschte GGUF (quant) herunter.

2

Anleitung zum Thinking-Schalter: Nach dem Herunterladen öffnen Sie Ihr Terminal / PowerShell und versuchen Sie: lms --help. Wenn LM Studio normal mit vielen Befehlen erscheint, führen Sie aus:

Dies holt eine YAML-Datei, die Ihrer GGUF ermöglicht, den '💡Thinking' und 'Non-thinking' Schalter anzuzeigen. Sie können 4b in die gewünschte Quantisierung ändern, die Sie verwenden möchten.

Andernfalls können Sie zu unserer LM Studio-Seitearrow-up-right gehen und die spezifische YAML-Datei herunterladen.

3

Starten Sie LM Studio neu und laden Sie dann Ihr heruntergeladenes Modell (mit dem spezifischen Thinking-Schalter, den Sie heruntergeladen haben). Sie sollten jetzt den Thinking-Schalter aktiviert sehen. Vergessen Sie nicht, die korrekten Parameter.

🦙 Llama-server Serving & OpenAIs Completion-Bibliothek

Um Qwen3.5-397B-A17B für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal sagen Sie z. B. via tmux, stellen Sie das Modell bereit via:

Dann in einem neuen Terminal, nachdem Sie pip install openai, tun Sie:

🤔 Wie man Reasoning & Thinking aktiviert oder deaktiviert

Für die untenstehenden Befehle können Sie 'true' und 'false ' austauschbar verwenden. Um Think-Schalter für LM Studio zu erhalten, lesen Sie unsere Anleitung.

circle-info

Um deaktivieren Denken / Reasoning, verwenden Sie innerhalb von llama-server:

Wenn Sie auf Windows oder Powershell, verwenden Sie: --chat-template-kwargs "{\"enable_thinking\":false}"

circle-info

Um aktivieren Denken / Reasoning, verwenden Sie innerhalb von llama-server:

Wenn Sie auf Windows oder Powershell, verwenden Sie: --chat-template-kwargs "{\"enable_thinking\":true}"

triangle-exclamation

Als Beispiel für Qwen3.5-9B, um Denken zu aktivieren (standardmäßig deaktiviert):

Und dann in Python:

👨‍💻 OpenAI Codex & Claude Code

Um das Modell für lokale agentische Coding-Workloads auszuführen, können Sie unserer Anleitung folgen. Ändern Sie einfach den Modellnamen 'GLM-4.7-Flash' in Ihre gewünschte 'Qwen3.5'-Variante und stellen Sie sicher, dass Sie die korrekten Qwen3.5-Parameter und Nutzungsanweisungen befolgen. Verwenden Sie das llama-server wir gerade eingerichtet haben.

Nach Befolgung der Anweisungen für Claude Code zum Beispiel werden Sie sehen:

Dann können wir zum Beispiel fragen Erstelle ein Python-Spiel für Schach :

🔨Tool Calling mit Qwen3.5

Siehe Tool Calling Guide für weitere Details, wie man Tool-Calling macht. In einem neuen Terminal (wenn Sie tmux verwenden, nutzen Sie CTRL+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:

Wir verwenden dann die untenstehenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:

Nach dem Start von Qwen3.5 via llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für mehr Details, können wir dann einige Tool-Aufrufe durchführen.

📊 Benchmarks

Unsloth GGUF-Benchmarks

Wir haben Qwen3.5-35B Unsloth Dynamic-Quants aktualisiert stand als SOTA bei nahezu allen Bits. Wir führten über 150 KL-Divergenz-Benchmarks durch, insgesamt 9TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen. Wir haben auch einen Tool-Aufruf Chat-Vorlage Fehler (betrifft alle Quant-Upload-Tools)

  • Alle GGUFs jetzt mit einer verbesserten Quantisierungs- Algorithmus.

  • Alle verwenden unser neues imatrix-Daten. Siehe einige Verbesserungen bei Chat-, Coding-, Langkontext- und Tool-Calling-Anwendungsfällen.

  • Qwen3.5-35B-A3B GGUFs wurden aktualisiert, um neue Korrekturen zu verwenden (112B, 27B werden noch konvertiert, erneut herunterladen, sobald sie aktualisiert wurden)

  • 99,9% KL-Divergenz zeigt SOTA auf der Pareto-Grenze für UD-Q4_K_XL, IQ3_XXS und mehr.

  • Rückzug von MXFP4 aus allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, außer für reines MXFP4_MOE.

35B-A3B - KLD-Benchmarks (niedriger ist besser)
122B-A10B - KLD-Benchmarks (niedriger ist besser)

LESEN SIE UNSERE DETAILLIERTE QWEN3.5-ANALYSE + BENCHMARKS HIER:

chart-fftQwen3.5 GGUF-Benchmarkschevron-right

Qwen3.5-397B-A17B Benchmarks

Benjamin Marie (Drittanbieter) hat bewertetarrow-up-right Qwen3.5-397B-A17B unter Verwendung von Unsloth GGUFs auf einem 750-Prompt gemischten Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell Fehler macht im Vergleich zum Original).

Wichtigste Ergebnisse (Genauigkeit; Veränderung gegenüber dem Original; relative Fehlerzunahme):

  • Ursprüngliche Gewichte: 81.3%

  • UD-Q4_K_XL: 80.5% (−0,8 Punkte; +4,3% relative Fehlerzunahme)

  • UD-Q3_K_XL: 80.7% (−0,6 Punkte; +3,5% relative Fehlerzunahme)

UD-Q4_K_XL und UD-Q3_K_XL bleiben dem Original extrem nahe, weit unter einem Genauigkeitsverlust von 1 Punkt in dieser Suite, was Ben andeutet, dass man den Speicherbedarf deutlich reduzieren kann (~500 GB weniger) mit nur geringem bis keinem praktischen Verlust bei den getesteten Aufgaben.

Wie man wählt: Dass Q3 hier etwas besser als Q4 abschneidet, ist völlig plausibel als normale Lauf-zu-Lauf-Varianz in diesem Maßstab, also behandeln Sie Q3 und Q4 als effektiv gleichwertige Qualität in diesem Benchmark:

  • Wähle Q3 wenn du den kleinsten Fußabdruck / die besten Speicherersparnisse möchtest

  • Wähle Q4 wenn du eine etwas konservativere Option mit ähnlichen Ergebnissen

Alle aufgeführten Quants nutzen unsere dynamische Methodik. Sogar UD-IQ2_M verwendet dieselbe dynamische Methodik, jedoch ist der Konvertierungsprozess anders als bei UD-Q2-K-XL wo K-XL normalerweise schneller ist als UD-IQ2_M obwohl es größer ist, daher ist das der Grund, warum UD-IQ2_M besser abschneiden kann als UD-Q2-K-XL.

Offizielle Qwen-Benchmarks

Qwen3.5-35B-A3B, 27B und 122B-A10B Benchmarks

Qwen3.5-4B und 9B Benchmarks

Qwen3.5-397B-A17B Benchmarks

Zuletzt aktualisiert

War das hilfreich?