💜Qwen3.5 - Anleitung zum lokalen Ausführen
Führe die neuen Qwen3.5-LLMs aus, einschließlich Medium: Qwen3.5-35B-A3B, 27B, 122B-A10B, Small: Qwen3.5-0.8B, 2B, 4B, 9B und 397B-A17B auf deinem lokalen Gerät!
Qwen3.5 ist Alibabas neue Modelfamilie, einschließlich Qwen3.5-35B-A3B, 27B, 122B-A10B und 397B-A17B sowie die neue Small Serie: Qwen3.5-0.8B, 2B, 4B und 9B. Die multimodalen hybriden Reasoning-LLMs liefern die stärksten Leistungen für ihre Größen. Sie unterstützen 256K Kontext über 201 Sprachen hinweg, haben Thinking + Nicht-Thinking und glänzen bei agentischem Coding, Vision-, Chat- und Langkontext-Aufgaben. Die Modelle 35B und 27B laufen auf einem 22GB Mac-/RAM-Gerät. Sieh dir hier alle GGUFs an.
17. März-Update: Du kannst Qwen3.5 jetzt in Unsloth Studio.
5. März-Update: Lade Qwen3.5-35B, 27B, 122B und 397B.
Alle GGUFs wurden jetzt mit einem verbesserten Quantisierungs- Algorithmus aktualisiert.
Alle verwenden unsere neuen imatrix-Daten. Sieh einige Verbesserungen bei Chat-, Coding-, Langkontext- und Tool-Calling-Anwendungsfällen.
Tool-Calling verbessert nach unseren Korrekturen an der Chat-Vorlage. Der Fix ist universell und gilt für jeden Qwen3.5-Format und jeden Uploader.
Sieh dir neue GGUF-Benchmarks an für Unsloth-Leistungsergebnisse + unsere MXFP4-Untersuchung.
Wir nehmen MXFP4-Schichten aus 3 Qwen3.5-GGUFs zurück: Q2_K_XL, Q3_K_XL und Q4_K_XL.
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung – daher werden bei 4-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Qwen für den Day-Zero-Zugriff auf Unsloth. Du kannst auch feinabstimmen Qwen3.5 mit Unsloth.
Um Thinking zu aktivieren oder zu deaktivieren, siehe Qwen3.5.Qwen3.5 Small-Modelle sind standardmäßig deaktiviert.
In Unsloth Studio ausführen35B-A3B27B122B-A10B397B-A17BFeinabstimmenQwen3.5 Small
⚙️ Nutzungsanleitung
Tabelle: Hardware-Anforderungen für Inferenz (Einheiten = Gesamtspeicher: RAM + VRAM oder einheitlicher Speicher)
Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + Systemspeicher) die Größe der quantisierten Modelldatei übersteigt, die du herunterlädst. Wenn nicht, kann llama.cpp weiterhin per SSD/HDD-Offloading ausgeführt werden, aber die Inferenz wird langsamer sein.
Zwischen 27B und 35B-A3B, verwende 27B, wenn du etwas genauere Ergebnisse möchtest und es nicht auf dein Gerät passt. Nimm 35B-A3B, wenn du eine viel schnellere Inferenz möchtest.
Empfohlene Einstellungen
Maximales Kontextfenster:
262,144(kann über YaRN auf 1M erweitert werden)presence_penalty = 0.0 bis 2.0standardmäßig ist dies aus, aber um Wiederholungen zu verringern, kannst du dies verwenden; ein höherer Wert kann jedoch zu einem leichten LeistungsabfallAusreichende Ausgabelänge:
32,768Tokens für die meisten Anfragen
Wenn du Kauderwelsch erhältst, ist deine Kontextlänge möglicherweise zu niedrig eingestellt. Oder versuche --cache-type-k bf16 --cache-type-v bf16 was helfen könnte.
Da Qwen3.5 hybrides Reasoning verwendet, haben Thinking- und Nicht-Thinking-Modus unterschiedliche Einstellungen:
Thinking-Modus:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Thinking-Modus für allgemeine Aufgaben:
Thinking-Modus für präzise Coding-Aufgaben:
Einstellungen für den Instruct-(Nicht-Thinking)-Modus:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Zum Deaktivieren von Thinking / Reasoning, verwende --chat-template-kwargs '{"enable_thinking":false}'
Wenn du auf Windows Powershell --chat-template-kwargs "{\"enable_thinking\":false}"
Verwende 'true' und 'false' austauschbar.
Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning standardmäßig deaktiviert. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'
Instruct-(Nicht-Thinking)-Modus für allgemeine Aufgaben:
Instruct-(Nicht-Thinking)-Modus für Reasoning-Aufgaben:
Qwen3.5 Inferenz-Tutorials:
Da Qwen3.5 in vielen verschiedenen Größen verfügbar ist, werden wir Dynamic 4-Bit verwenden MXFP4_MOE GGUF-Varianten für alle Inferenz-Workloads verwenden. Klicke unten, um zu den Anweisungen für das jeweilige Modell zu gelangen:
Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall (0.8B • 2B • 4B • 9B)LM Studio
Unsloth Dynamic GGUF-Uploads:
presence_penalty = 0.0 bis 2.0 standardmäßig ist dies aus, aber um Wiederholungen zu verringern, kannst du dies verwenden; ein höherer Wert kann jedoch zu einem leichter Leistungsabfall.
Derzeit funktioniert kein Qwen3.5-GGUF in Ollama aufgrund separater mmproj-Vision-Dateien. Verwende llama.cpp-kompatible Backends.
🦥 Unsloth-Studio-Anleitung
Für dieses Tutorial verwenden wir Unsloth Studiounser neues Web-UI zum Ausführen und Trainieren von LLMs ist. Mit Unsloth Studio kannst du Modelle lokal auf Mac, Windowsund Linux ausführen und:
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Modelle vergleichen nebeneinander
Selbstheilendes Tool-Calling + Websuche
Codeausführung (Python, Bash)
Automatische Inferenz Parameter-Tuning (Temp, Top-p usw.)
LLMs trainieren 2x schneller mit 70 % weniger VRAM

Unsloth Studio einrichten (einmalig)
Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.
Die erste Installation kann 5–10 Minuten dauern. Das ist normal, da llama.cpp Binärdateien kompilieren muss. Brichte sie nicht ab.
WSL-Nutzer: du wirst nach deinem sudo Passwort gefragt, um Build-Abhängigkeiten zu installieren (cmake, git, libcurl4-openssl-dev).
Qwen3.5 suchen und herunterladen
Beim ersten Start musst du ein Passwort erstellen, um dein Konto zu schützen, und dich später erneut anmelden. Anschließend siehst du einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Du kannst ihn jederzeit überspringen.
Dann gehe zum Studio Chat Tab und suche in der Suchleiste nach Qwen3.5 und lade das gewünschte Modell und die gewünschte Quantisierung herunter.

Qwen3.5 ausführen
Die Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden; du kannst sie jedoch weiterhin manuell ändern. Du kannst auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.
Für weitere Informationen kannst du unseren Unsloth-Studio-Inferenzleitfaden.

🦙 Llama.cpp-Anleitungen
Qwen3.5-35B-A3B
Für diese Anleitung verwenden wir Dynamic 4-Bit, das auf einem 24GB RAM-/Mac-Gerät hervorragend für schnelle Inferenz funktioniert. Da das Modell bei voller F16-Präzision nur etwa 72GB groß ist, müssen wir uns nicht allzu sehr um die Leistung sorgen. GGUF: Qwen3.5-35B-A3B-GGUF
Für diese Tutorials verwenden wir llama.cpp für schnelle lokale Inferenz, besonders wenn du eine CPU hast.
Beschaffe die neueste llama.cpp auf GitHub hier. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.
Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="folder" um llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Folge je nach Anwendungsfall einem der folgenden spezifischen Befehle:
Thinking-Modus:
Präzise Coding-Aufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Thinking-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit-Dynamic-Quantisierung, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führe das Modell im Gesprächsmodus aus:
Qwen3.5 Small (0.8B • 2B • 4B • 9B)
Für Qwen3.5 0.8B, 2B, 4B und 9B, ist Reasoning deaktiviert standardmäßig. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'
Unter Windows verwende: --chat-template-kwargs "{\"enable_thinking\":true}"
Für die Qwen3.5-Small-Serie reicht es, da sie so klein sind, aus, in den Skripten einfach den Modellnamen in die gewünschte Variante zu ändern. Für diese spezielle Anleitung verwenden wir die 9B-Parameter-Variante. Um sie alle in nahezu voller Präzision auszuführen, benötigst du lediglich ein 12GB-RAM-/VRAM-/Unified-Memory-Gerät. GGUFs:
Beschaffe die neueste llama.cpp auf GitHub hier. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="folder" um llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Folge je nach Anwendungsfall einem der folgenden spezifischen Befehle:
Um eine andere Variante als 9B zu verwenden, kannst du '9B' ändern in: 0.8B, 2B oder 4B usw.
Thinking-Modus (standardmäßig deaktiviert)
Qwen3.5 Small-Modelle deaktivieren Thinking standardmäßig. Verwende llama-server, um es zu aktivieren.
Allgemeine Aufgaben:
Um eine andere Variante als 9B zu verwenden, kannst du '9B' ändern in: 0.8B, 2B oder 4B usw.
Der Nicht-Thinking-Modus ist bereits standardmäßig aktiviert
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit-Dynamic-Quantisierung, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führe das Modell im Gesprächsmodus aus:
Qwen3.5-27B
Für diese Anleitung verwenden wir Dynamic 4-Bit, das auf einem 18GB RAM-/Mac-Gerät hervorragend für schnelle Inferenz funktioniert. GGUF: Qwen3.5-27B-GGUF
Beschaffe die neueste llama.cpp auf GitHub hier. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="folder" um llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Folge je nach Anwendungsfall einem der folgenden spezifischen Befehle:
Thinking-Modus:
Präzise Coding-Aufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Thinking-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit-Dynamic-Quantisierung, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führe das Modell im Gesprächsmodus aus:
Qwen3.5-122B-A10B
Für diese Anleitung verwenden wir Dynamic 4-Bit, das auf einem 70GB RAM-/Mac-Gerät hervorragend für schnelle Inferenz funktioniert. GGUF: Qwen3.5-122B-A10B-GGUF
Beschaffe die neueste llama.cpp auf GitHub hier. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="folder" um llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Folge je nach Anwendungsfall einem der folgenden spezifischen Befehle:
Thinking-Modus:
Präzise Coding-Aufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Thinking-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit-Dynamic-Quantisierung, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führe das Modell im Gesprächsmodus aus:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B liegt in derselben Leistungsklasse wie Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2. Der vollständige 397B-Checkpoint belegt auf der Festplatte etwa 807GB, aber über Unsloths 397B-GGUFs kannst du Folgendes ausführen:
3-Bit: passt auf 192GB RAM Systeme (z. B. ein 192GB Mac)
4-Bit (MXFP4): passt auf 256GB RAM. Unsloth 4-Bit dynamisch UD-Q4_K_XL ist ~214GB auf der Festplatte - lädt direkt auf einem 256GB M3 Ultra
Läuft auf einer einzelnen 24GB-GPU + 256GB Systemspeicher über MoE-Offloading, und erreicht 25+ Tokens/s
8-Bit benötigt ~512GB RAM/VRAM
Siehe 397B-Quantisierungs-Benchmarks dazu, wie Unsloth-GGUFs abschneiden.
Beschaffe die neueste llama.cpp auf GitHub hier. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="folder" um llama.cpp um an einem bestimmten Ort zu speichern. Denk daran, dass das Modell nur eine maximale Kontextlänge von 256K hat.
Folge dies für Thinking Modus:
Folge dies für Nicht-Thinking Modus:
Lade das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit-Dynamic-Quantisierung, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Du kannst bearbeiten --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, wie viele Schichten. Versuche, dies anzupassen, wenn deinem GPU-Speicher der Speicher ausgeht. Entferne es auch, wenn du nur CPU-Inferenz hast.
👾 LM-Studio-Anleitung
Für diese Anleitung verwenden wir LM Studioeine vereinheitlichte UI-Oberfläche zum Ausführen von LLMs. Der Schalter '💡Thinking' und 'Nicht-Thinking' wird möglicherweise standardmäßig nicht angezeigt, daher benötigen wir einige zusätzliche Schritte, damit es funktioniert.
Herunterladen LM Studio für dein Gerät. Öffne dann Model Search, suche nach 'unsloth/qwen3.5' und lade das gewünschte GGUF (Quant) herunter.

Anweisungen für den Thinking-Schalter: Öffne nach dem Herunterladen dein Terminal / PowerShell und versuche: lms --help. Wenn LM Studio dann normal mit vielen Befehlen erscheint, führe aus:
Dadurch wird eine YAML-Datei abgerufen, die deinem GGUF ermöglicht, dass der Schalter '💡Thinking' und 'Nicht-Thinking' angezeigt wird. Du kannst 4b in die gewünschte Quantisierung ändern, die du haben möchtest.

Alternativ kannst du zu unserer LM-Studio-Seite gehen und die spezifische YAML-Datei herunterladen.
Starte LM Studio neu und lade dann dein heruntergeladenes Modell (mit dem spezifischen Thinking-Schalter, den du heruntergeladen hast). Du solltest nun sehen, dass der Thinking-Schalter aktiviert ist. Vergiss nicht, die richtigen Parameter.

🦙 Llama-server-Serving & OpenAIs Completion-Bibliothek
Um Qwen3.5-397B-A17B für den Produktionseinsatz bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:
Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast:
🤔 Wie man Reasoning & Thinking aktiviert oder deaktiviert
Für die folgenden Befehle kannst du 'true' und 'false' austauschbar verwenden.
Unsloth Studio hat automatisch einen 'Think'-Schalter für Thinking-Modelle.
Um den Think-Schalter in LM Studio zu haben, lies unsere Anleitung.

Zum deaktivieren Denken / Schlussfolgern, Verwendung innerhalb von llama-server:
Wenn du auf Windows oder PowerShell, verwenden Sie: --chat-template-kwargs "{\"enable_thinking\":false}"
Zum aktivieren Denken / Schlussfolgern, Verwendung innerhalb von llama-server:
Wenn du auf Windows oder PowerShell, verwenden Sie: --chat-template-kwargs "{\"enable_thinking\":true}"
Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning standardmäßig deaktiviert. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'
Und unter Windows oder PowerShell: --chat-template-kwargs "{\"enable_thinking\":true}"
Als Beispiel für Qwen3.5-9B, um das Denken zu aktivieren (standardmäßig deaktiviert):
Und dann in Python:

👨💻 OpenAI Codex & Claude Code
Um das Modell für lokale, agentische Coding-Workloads auszuführen, können Sie unseren Leitfaden befolgen. Ändern Sie einfach den Modellnamen auf die gewünschte 'Qwen3.5'-Variante und stellen Sie sicher, dass Sie die korrekten Qwen3.5-Parameter und Nutzungshinweise befolgen. Verwenden Sie die llama-server die wir gerade eben eingerichtet haben.
Nachdem Sie zum Beispiel die Anweisungen für Claude Code befolgt haben, sehen Sie:

Dann können wir zum Beispiel fragen Erstelle ein Python-Spiel für Schach :



🔨Tool-Aufrufe mit Qwen3.5
Siehe Tool Calling Guide für weitere Details dazu, wie man Tool-Calling durchführt. In einem neuen Terminal (wenn Sie tmux verwenden, nutzen Sie STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:
Wir verwenden dann die folgenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch analysieren und für jedes Modell den OpenAI-Endpunkt aufrufen:
Nachdem Sie Qwen3.5 über llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für weitere Details; dann können wir einige Tool-Aufrufe durchführen.
📊 Benchmarks
Unsloth GGUF-Benchmarks
Wir haben die Qwen3.5-35B Unsloth Dynamic-Quants aktualisiert und damit SOTA bei nahezu allen Bits. Wir haben über 150 KL-Divergenz-Benchmarks durchgeführt, insgesamt 9 TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen. Wir haben außerdem einen Tool-Calling Chat-Template Bug (betrifft alle Quant-Uploader)
Alle GGUFs wurden jetzt mit einem verbesserten Quantisierungs- Algorithmus aktualisiert.
Alle verwenden unsere neuen imatrix-Daten. Sieh einige Verbesserungen bei Chat-, Coding-, Langkontext- und Tool-Calling-Anwendungsfällen.
Qwen3.5-35B-A3B GGUFs wurden aktualisiert, um die neuen Fixes zu verwenden (112B, 27B werden noch konvertiert; erneut herunterladen, sobald sie aktualisiert sind)
99,9 % KL-Divergenz zeigt SOTA auf der Pareto-Grenze für UD-Q4_K_XL, IQ3_XXS und mehr.
Ablösung von MXFP4 bei allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, außer bei reinem MXFP4_MOE.


LESEN SIE UNSERE DETAILLIERTE QWEN3.5-ANALYSE + BENCHMARKS HIER:
Qwen3.5 GGUF-BenchmarksQwen3.5-397B-A17B Benchmarks

Benjamin Marie (Drittanbieter) hat Benchmarks durchgeführt Qwen3.5-397B-A17B unter Verwendung von Unsloth GGUFs auf einem 750-Prompt-Mix-Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell im Vergleich zum Original Fehler macht).
Wichtige Ergebnisse (Genauigkeit; Änderung gegenüber dem Original; relative Fehlerzunahme):
Originalgewichte: 81.3%
UD-Q4_K_XL: 80.5% (−0,8 Punkte; +4,3 % relative Fehlerzunahme)
UD-Q3_K_XL: 80.7% (−0,6 Punkte; +3,5 % relative Fehlerzunahme)
UD-Q4_K_XL und UD-Q3_K_XL bleiben dem Original extrem nahe, weit unter einem Genauigkeitsverlust von 1 Punkt bei dieser Suite, was Ben andeutet, dass Sie den Speicherbedarf deutlich reduzieren können (~500 GB weniger) mit wenig bis gar keinem praktischen Verlust bei den getesteten Aufgaben.
Wie auswählen: Dass Q3 hier etwas höher abschneidet als Q4, ist in diesem Maßstab als normale Lauf-zu-Lauf-Varianz völlig plausibel, behandeln Sie daher Q3 und Q4 als qualitativ praktisch gleichwertig in diesem Benchmark:
Wählen Sie Q3 wenn Sie den kleinsten Speicherbedarf / die besten Speichereinsparungen
Wählen Sie Q4 wenn Sie eine etwas konservativere Option mit ähnlichen Ergebnissen wünschen
Alle aufgeführten Quants verwenden unsere dynamische Methodik. Sogar UD-IQ2_M verwendet dieselbe Methode der Dynamik, allerdings ist der Konvertierungsprozess anders als bei UD-Q2-K-XL wobei K-XL normalerweise schneller ist als UD-IQ2_M obwohl es größer ist, deshalb UD-IQ2_M möglicherweise besser abschneiden kann als UD-Q2-K-XL.
Offizielle Qwen-Benchmarks
Qwen3.5-35B-A3B-, 27B- und 122B-A10B-Benchmarks

Qwen3.5-4B- und 9B-Benchmarks

Qwen3.5-397B-A17B Benchmarks

Zuletzt aktualisiert
War das hilfreich?


