💜Qwen3.5 - Anleitung zum lokalen Ausführen

Führe die neuen Qwen3.5-LLMs aus, einschließlich Medium: Qwen3.5-35B-A3B, 27B, 122B-A10B, Small: Qwen3.5-0.8B, 2B, 4B, 9B und 397B-A17B auf deinem lokalen Gerät!

Qwen3.5 ist Alibabas neue Modelfamilie, einschließlich Qwen3.5-35B-A3B, 27B, 122B-A10B und 397B-A17B sowie die neue Small Serie: Qwen3.5-0.8B, 2B, 4B und 9B. Die multimodalen hybriden Reasoning-LLMs liefern die stärksten Leistungen für ihre Größen. Sie unterstützen 256K Kontext über 201 Sprachen hinweg, haben Thinking + Nicht-Thinking und glänzen bei agentischem Coding, Vision-, Chat- und Langkontext-Aufgaben. Die Modelle 35B und 27B laufen auf einem 22GB Mac-/RAM-Gerät. Sieh dir hier alle GGUFs anarrow-up-right.

circle-check

Alle Uploads verwenden Unsloth Dynamic 2.0arrow-up-right für SOTA-Quantisierungsleistung – daher werden bei 4-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Qwen für den Day-Zero-Zugriff auf Unsloth. Du kannst auch feinabstimmen Qwen3.5 mit Unsloth.

circle-info

Um Thinking zu aktivieren oder zu deaktivieren, siehe Qwen3.5.Qwen3.5 Small-Modelle sind standardmäßig deaktiviert.

In Unsloth Studio ausführen35B-A3B27B122B-A10B397B-A17BFeinabstimmenQwen3.5 Small

⚙️ Nutzungsanleitung

Tabelle: Hardware-Anforderungen für Inferenz (Einheiten = Gesamtspeicher: RAM + VRAM oder einheitlicher Speicher)

Qwen3.5
3-Bit
4-Bit
6-Bit
8-Bit
BF16

3 GB

3,5 GB

5 GB

7,5 GB

9 GB

4,5 GB

5,5 GB

7 GB

10 GB

14 GB

5,5 GB

6,5 GB

9 GB

13 GB

19 GB

14 GB

17 GB

24 GB

30 GB

54 GB

17 GB

22 GB

30 GB

38 GB

70 GB

60 GB

70 GB

106 GB

132 GB

245 GB

180 GB

214 GB

340 GB

512 GB

810 GB

circle-check

Zwischen 27B und 35B-A3B, verwende 27B, wenn du etwas genauere Ergebnisse möchtest und es nicht auf dein Gerät passt. Nimm 35B-A3B, wenn du eine viel schnellere Inferenz möchtest.

Empfohlene Einstellungen

  • Maximales Kontextfenster: 262,144 (kann über YaRN auf 1M erweitert werden)

  • presence_penalty = 0.0 bis 2.0 standardmäßig ist dies aus, aber um Wiederholungen zu verringern, kannst du dies verwenden; ein höherer Wert kann jedoch zu einem leichten Leistungsabfall

  • Ausreichende Ausgabelänge: 32,768 Tokens für die meisten Anfragen

circle-info

Wenn du Kauderwelsch erhältst, ist deine Kontextlänge möglicherweise zu niedrig eingestellt. Oder versuche --cache-type-k bf16 --cache-type-v bf16 was helfen könnte.

Da Qwen3.5 hybrides Reasoning verwendet, haben Thinking- und Nicht-Thinking-Modus unterschiedliche Einstellungen:

Thinking-Modus:

Allgemeine Aufgaben
Präzise Coding-Aufgaben (z. B. WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

Thinking-Modus für allgemeine Aufgaben:

Thinking-Modus für präzise Coding-Aufgaben:

Einstellungen für den Instruct-(Nicht-Thinking)-Modus:

Allgemeine Aufgaben
Reasoning-Aufgaben

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

circle-exclamation

Instruct-(Nicht-Thinking)-Modus für allgemeine Aufgaben:

Instruct-(Nicht-Thinking)-Modus für Reasoning-Aufgaben:

Qwen3.5 Inferenz-Tutorials:

Da Qwen3.5 in vielen verschiedenen Größen verfügbar ist, werden wir Dynamic 4-Bit verwenden MXFP4_MOE GGUF-Varianten für alle Inferenz-Workloads verwenden. Klicke unten, um zu den Anweisungen für das jeweilige Modell zu gelangen:

Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall (0.8B • 2B • 4B • 9B)LM Studio

Unsloth Dynamic GGUF-Uploads:

circle-exclamation

🦥 Unsloth-Studio-Anleitung

Für dieses Tutorial verwenden wir Unsloth Studiounser neues Web-UI zum Ausführen und Trainieren von LLMs ist. Mit Unsloth Studio kannst du Modelle lokal auf Mac, Windowsund Linux ausführen und:

1

Unsloth installieren

MacOS, Linux, WSL:

Windows PowerShell:

2

Unsloth Studio einrichten (einmalig)

Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.

circle-exclamation
circle-info

WSL-Nutzer: du wirst nach deinem sudo Passwort gefragt, um Build-Abhängigkeiten zu installieren (cmake, git, libcurl4-openssl-dev).

3

Unsloth starten

MacOS, Linux, WSL und Windows:

Dann öffne http://localhost:8888 in deinem Browser.

4

Qwen3.5 suchen und herunterladen

Beim ersten Start musst du ein Passwort erstellen, um dein Konto zu schützen, und dich später erneut anmelden. Anschließend siehst du einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Du kannst ihn jederzeit überspringen.

Dann gehe zum Studio Chat Tab und suche in der Suchleiste nach Qwen3.5 und lade das gewünschte Modell und die gewünschte Quantisierung herunter.

5

Qwen3.5 ausführen

Die Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden; du kannst sie jedoch weiterhin manuell ändern. Du kannst auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Für weitere Informationen kannst du unseren Unsloth-Studio-Inferenzleitfaden.

🦙 Llama.cpp-Anleitungen

Qwen3.5-35B-A3B

Für diese Anleitung verwenden wir Dynamic 4-Bit, das auf einem 24GB RAM-/Mac-Gerät hervorragend für schnelle Inferenz funktioniert. Da das Modell bei voller F16-Präzision nur etwa 72GB groß ist, müssen wir uns nicht allzu sehr um die Leistung sorgen. GGUF: Qwen3.5-35B-A3B-GGUFarrow-up-right

Für diese Tutorials verwenden wir llama.cpparrow-up-right für schnelle lokale Inferenz, besonders wenn du eine CPU hast.

1

Beschaffe die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="folder" um llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Folge je nach Anwendungsfall einem der folgenden spezifischen Befehle:

Thinking-Modus:

Präzise Coding-Aufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Thinking-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit-Dynamic-Quantisierung, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann führe das Modell im Gesprächsmodus aus:

Qwen3.5 Small (0.8B • 2B • 4B • 9B)

circle-exclamation

Für die Qwen3.5-Small-Serie reicht es, da sie so klein sind, aus, in den Skripten einfach den Modellnamen in die gewünschte Variante zu ändern. Für diese spezielle Anleitung verwenden wir die 9B-Parameter-Variante. Um sie alle in nahezu voller Präzision auszuführen, benötigst du lediglich ein 12GB-RAM-/VRAM-/Unified-Memory-Gerät. GGUFs:

1

Beschaffe die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="folder" um llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Folge je nach Anwendungsfall einem der folgenden spezifischen Befehle:

circle-check

Thinking-Modus (standardmäßig deaktiviert)

triangle-exclamation

Allgemeine Aufgaben:

circle-check

Der Nicht-Thinking-Modus ist bereits standardmäßig aktiviert

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit-Dynamic-Quantisierung, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann führe das Modell im Gesprächsmodus aus:

Qwen3.5-27B

Für diese Anleitung verwenden wir Dynamic 4-Bit, das auf einem 18GB RAM-/Mac-Gerät hervorragend für schnelle Inferenz funktioniert. GGUF: Qwen3.5-27B-GGUFarrow-up-right

1

Beschaffe die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="folder" um llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Folge je nach Anwendungsfall einem der folgenden spezifischen Befehle:

Thinking-Modus:

Präzise Coding-Aufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Thinking-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit-Dynamic-Quantisierung, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann führe das Modell im Gesprächsmodus aus:

Qwen3.5-122B-A10B

Für diese Anleitung verwenden wir Dynamic 4-Bit, das auf einem 70GB RAM-/Mac-Gerät hervorragend für schnelle Inferenz funktioniert. GGUF: Qwen3.5-122B-A10B-GGUFarrow-up-right

1

Beschaffe die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="folder" um llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Folge je nach Anwendungsfall einem der folgenden spezifischen Befehle:

Thinking-Modus:

Präzise Coding-Aufgaben (z. B. WebDev):

Allgemeine Aufgaben:

Nicht-Thinking-Modus:

Allgemeine Aufgaben:

Reasoning-Aufgaben:

3

Lade das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit-Dynamic-Quantisierung, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann führe das Modell im Gesprächsmodus aus:

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B liegt in derselben Leistungsklasse wie Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2. Der vollständige 397B-Checkpoint belegt auf der Festplatte etwa 807GB, aber über Unsloths 397B-GGUFsarrow-up-right kannst du Folgendes ausführen:

  • 3-Bit: passt auf 192GB RAM Systeme (z. B. ein 192GB Mac)

  • 4-Bit (MXFP4): passt auf 256GB RAM. Unsloth 4-Bit dynamisch UD-Q4_K_XL ist ~214GB auf der Festplatte - lädt direkt auf einem 256GB M3 Ultra

  • Läuft auf einer einzelnen 24GB-GPU + 256GB Systemspeicher über MoE-Offloading, und erreicht 25+ Tokens/s

  • 8-Bit benötigt ~512GB RAM/VRAM

circle-info

Siehe 397B-Quantisierungs-Benchmarks dazu, wie Unsloth-GGUFs abschneiden.

1

Beschaffe die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="folder" um llama.cpp um an einem bestimmten Ort zu speichern. Denk daran, dass das Modell nur eine maximale Kontextlänge von 256K hat.

Folge dies für Thinking Modus:

Folge dies für Nicht-Thinking Modus:

3

Lade das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit-Dynamic-Quantisierung, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Du kannst bearbeiten --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, wie viele Schichten. Versuche, dies anzupassen, wenn deinem GPU-Speicher der Speicher ausgeht. Entferne es auch, wenn du nur CPU-Inferenz hast.

👾 LM-Studio-Anleitung

Für diese Anleitung verwenden wir LM Studioarrow-up-righteine vereinheitlichte UI-Oberfläche zum Ausführen von LLMs. Der Schalter '💡Thinking' und 'Nicht-Thinking' wird möglicherweise standardmäßig nicht angezeigt, daher benötigen wir einige zusätzliche Schritte, damit es funktioniert.

1

Herunterladen LM Studioarrow-up-right für dein Gerät. Öffne dann Model Search, suche nach 'unsloth/qwen3.5' und lade das gewünschte GGUF (Quant) herunter.

2

Anweisungen für den Thinking-Schalter: Öffne nach dem Herunterladen dein Terminal / PowerShell und versuche: lms --help. Wenn LM Studio dann normal mit vielen Befehlen erscheint, führe aus:

Dadurch wird eine YAML-Datei abgerufen, die deinem GGUF ermöglicht, dass der Schalter '💡Thinking' und 'Nicht-Thinking' angezeigt wird. Du kannst 4b in die gewünschte Quantisierung ändern, die du haben möchtest.

Alternativ kannst du zu unserer LM-Studio-Seitearrow-up-right gehen und die spezifische YAML-Datei herunterladen.

3

Starte LM Studio neu und lade dann dein heruntergeladenes Modell (mit dem spezifischen Thinking-Schalter, den du heruntergeladen hast). Du solltest nun sehen, dass der Thinking-Schalter aktiviert ist. Vergiss nicht, die richtigen Parameter.

🦙 Llama-server-Serving & OpenAIs Completion-Bibliothek

Um Qwen3.5-397B-A17B für den Produktionseinsatz bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:

Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast:

🤔 Wie man Reasoning & Thinking aktiviert oder deaktiviert

Für die folgenden Befehle kannst du 'true' und 'false' austauschbar verwenden.

Unsloth Studio hat automatisch einen 'Think'-Schalter für Thinking-Modelle.

Um den Think-Schalter in LM Studio zu haben, lies unsere Anleitung.

Unsloth Studio hat standardmäßig einen Think-Schalter
circle-info

Zum deaktivieren Denken / Schlussfolgern, Verwendung innerhalb von llama-server:

Wenn du auf Windows oder PowerShell, verwenden Sie: --chat-template-kwargs "{\"enable_thinking\":false}"

circle-info

Zum aktivieren Denken / Schlussfolgern, Verwendung innerhalb von llama-server:

Wenn du auf Windows oder PowerShell, verwenden Sie: --chat-template-kwargs "{\"enable_thinking\":true}"

triangle-exclamation

Als Beispiel für Qwen3.5-9B, um das Denken zu aktivieren (standardmäßig deaktiviert):

Und dann in Python:

👨‍💻 OpenAI Codex & Claude Code

Um das Modell für lokale, agentische Coding-Workloads auszuführen, können Sie unseren Leitfaden befolgen. Ändern Sie einfach den Modellnamen auf die gewünschte 'Qwen3.5'-Variante und stellen Sie sicher, dass Sie die korrekten Qwen3.5-Parameter und Nutzungshinweise befolgen. Verwenden Sie die llama-server die wir gerade eben eingerichtet haben.

Nachdem Sie zum Beispiel die Anweisungen für Claude Code befolgt haben, sehen Sie:

Dann können wir zum Beispiel fragen Erstelle ein Python-Spiel für Schach :

🔨Tool-Aufrufe mit Qwen3.5

Siehe Tool Calling Guide für weitere Details dazu, wie man Tool-Calling durchführt. In einem neuen Terminal (wenn Sie tmux verwenden, nutzen Sie STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:

Wir verwenden dann die folgenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch analysieren und für jedes Modell den OpenAI-Endpunkt aufrufen:

Nachdem Sie Qwen3.5 über llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für weitere Details; dann können wir einige Tool-Aufrufe durchführen.

📊 Benchmarks

Unsloth GGUF-Benchmarks

Wir haben die Qwen3.5-35B Unsloth Dynamic-Quants aktualisiert und damit SOTA bei nahezu allen Bits. Wir haben über 150 KL-Divergenz-Benchmarks durchgeführt, insgesamt 9 TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen. Wir haben außerdem einen Tool-Calling Chat-Template Bug (betrifft alle Quant-Uploader)

  • Alle GGUFs wurden jetzt mit einem verbesserten Quantisierungs- Algorithmus aktualisiert.

  • Alle verwenden unsere neuen imatrix-Daten. Sieh einige Verbesserungen bei Chat-, Coding-, Langkontext- und Tool-Calling-Anwendungsfällen.

  • Qwen3.5-35B-A3B GGUFs wurden aktualisiert, um die neuen Fixes zu verwenden (112B, 27B werden noch konvertiert; erneut herunterladen, sobald sie aktualisiert sind)

  • 99,9 % KL-Divergenz zeigt SOTA auf der Pareto-Grenze für UD-Q4_K_XL, IQ3_XXS und mehr.

  • Ablösung von MXFP4 bei allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, außer bei reinem MXFP4_MOE.

35B-A3B - KLD-Benchmarks (niedriger ist besser)
122B-A10B - KLD-Benchmarks (niedriger ist besser)

LESEN SIE UNSERE DETAILLIERTE QWEN3.5-ANALYSE + BENCHMARKS HIER:

chart-fftQwen3.5 GGUF-Benchmarkschevron-right

Qwen3.5-397B-A17B Benchmarks

Benjamin Marie (Drittanbieter) hat Benchmarks durchgeführtarrow-up-right Qwen3.5-397B-A17B unter Verwendung von Unsloth GGUFs auf einem 750-Prompt-Mix-Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell im Vergleich zum Original Fehler macht).

Wichtige Ergebnisse (Genauigkeit; Änderung gegenüber dem Original; relative Fehlerzunahme):

  • Originalgewichte: 81.3%

  • UD-Q4_K_XL: 80.5% (−0,8 Punkte; +4,3 % relative Fehlerzunahme)

  • UD-Q3_K_XL: 80.7% (−0,6 Punkte; +3,5 % relative Fehlerzunahme)

UD-Q4_K_XL und UD-Q3_K_XL bleiben dem Original extrem nahe, weit unter einem Genauigkeitsverlust von 1 Punkt bei dieser Suite, was Ben andeutet, dass Sie den Speicherbedarf deutlich reduzieren können (~500 GB weniger) mit wenig bis gar keinem praktischen Verlust bei den getesteten Aufgaben.

Wie auswählen: Dass Q3 hier etwas höher abschneidet als Q4, ist in diesem Maßstab als normale Lauf-zu-Lauf-Varianz völlig plausibel, behandeln Sie daher Q3 und Q4 als qualitativ praktisch gleichwertig in diesem Benchmark:

  • Wählen Sie Q3 wenn Sie den kleinsten Speicherbedarf / die besten Speichereinsparungen

  • Wählen Sie Q4 wenn Sie eine etwas konservativere Option mit ähnlichen Ergebnissen wünschen

Alle aufgeführten Quants verwenden unsere dynamische Methodik. Sogar UD-IQ2_M verwendet dieselbe Methode der Dynamik, allerdings ist der Konvertierungsprozess anders als bei UD-Q2-K-XL wobei K-XL normalerweise schneller ist als UD-IQ2_M obwohl es größer ist, deshalb UD-IQ2_M möglicherweise besser abschneiden kann als UD-Q2-K-XL.

Offizielle Qwen-Benchmarks

Qwen3.5-35B-A3B-, 27B- und 122B-A10B-Benchmarks

Qwen3.5-4B- und 9B-Benchmarks

Qwen3.5-397B-A17B Benchmarks

Zuletzt aktualisiert

War das hilfreich?