💜Qwen3.5 - Anleitung zum lokalen Betrieb
Führe die neuen Qwen3.5-LLMs lokal auf deinem Gerät aus, einschließlich Medium: Qwen3.5-35B-A3B, 27B, 122B-A10B, Small: Qwen3.5-0.8B, 2B, 4B, 9B und 397B-A17B!
Qwen3.5 ist Alibabas neue Modellfamilie, einschließlich Qwen3.5-35B-A3B, 27B, 122B-A10B und 397B-A17B und die neue Klein Serie: Qwen3.5-0.8B, 2B, 4B und 9B. Die multimodalen Hybrid-Reasoning-LLMs liefern die stärksten Leistungen für ihre Größe. Sie unterstützen 256K Kontext über 201 Sprachen, haben Denken + nicht-Denken und zeichnen sich beim agentischen Codieren, Vision, Chat und Aufgaben mit langem Kontext aus. Die 35B- und 27B-Modelle laufen auf einem 22GB Mac / RAM-Gerät. Siehe alle GGUFs hier.
Update vom 5. März: Qwen3.5- erneut herunterladen35B, 27B, 122B und 397B.
Alle GGUFs jetzt aktualisiert mit einer verbesserten Quantisierungs- Algorithmus.
Alle verwenden unser neues imatrix-Daten. Siehe einige Verbesserungen in Chat-, Coding-, Langkontext- und Tool-Aufruf-Anwendungsfällen.
Tool-Aufrufe verbessert nach unseren Chat-Template-Fixes. Die Korrektur ist universell und gilt für jegliche Qwen3.5-Format und jegliche Uploader.
Überprüfe neue GGUF-Benchmarks für Unsloth-Leistungsergebnisse + unsere MXFP4-Untersuchung.
Wir entfernen MXFP4-Schichten aus 3 Qwen3.5-GGUFs: Q2_K_XL, Q3_K_XL und Q4_K_XL.
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung - daher werden in 4-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Qwen für die Bereitstellung von Day-Zero-Zugriff für Unsloth. Du kannst auch feinabstimmen Qwen3.5 mit Unsloth.
Um Denken zu aktivieren oder zu deaktivieren siehe Qwen3.5.Qwen3.5 Small-Modelle sind standardmäßig deaktiviert. Siehe auch LM Studio Anleitung um den Denk-Schalter zu aktivieren.
35B-A3B27B122B-A10B397B-A17BQwen3.5 feinabstimmen0.8B • 2B • 4B • 9B
⚙️ Nutzungsanleitung
Tabelle: Anforderungen an Inferenz-Hardware (Einheiten = Gesamtspeicher: RAM + VRAM oder Unified Memory)
Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + System-RAM) die Größe der quantisierten Modell-Datei, die du herunterlädst, übersteigt. Falls nicht, kann llama.cpp weiterhin über SSD/HDD-Offloading laufen, aber die Inferenz wird langsamer sein.
Zwischen 27B und 35B-A3B, verwende 27B, wenn du etwas genauere Ergebnisse möchtest und nicht auf deinem Gerät platzst. Wähle 35B-A3B, wenn du eine deutlich schnellere Inferenz möchtest.
Empfohlene Einstellungen
Maximales Kontextfenster:
262,144(kann via YaRN auf 1M erweitert werden)presence_penalty = 0.0 bis 2.0Standardmäßig ist dies aus, aber um Wiederholungen zu reduzieren, kannst du dies verwenden; jedoch kann die Verwendung eines höheren Werts zu leichter LeistungseinbußeAngemessene Ausgabelänge:
32,768Token für die meisten Anfragen
Wenn du Unsinn erhältst, könnte deine Kontextlänge zu niedrig eingestellt sein. Oder versuche --cache-type-k bf16 --cache-type-v bf16 was helfen könnte.
Da Qwen3.5 Hybrid-Reasoning ist, haben Denk- und Nicht-Denk-Modus unterschiedliche Einstellungen:
Denkmodus:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Denkmodus für allgemeine Aufgaben:
Denkmodus für präzise Codieraufgaben:
Instruct (Nicht-Denk) Modus-Einstellungen:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Um Denken / Reasoning zu deaktivieren, verwende --chat-template-kwargs '{"enable_thinking":false}'
Wenn du auf Windows Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":false}"
Verwende 'true' und 'false' austauschbar.
Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning standardmäßig deaktiviert. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'
Instruct (Nicht-Denk) für allgemeine Aufgaben:
Instruct (Nicht-Denk) für Reasoning-Aufgaben:
Qwen3.5 Inferenz-Tutorials:
Da Qwen3.5 in vielen verschiedenen Größen kommt, verwenden wir Dynamic 4-bit MXFP4_MOE GGUF-Varianten für alle Inferenz-Workloads. Klicke unten, um zu den jeweiligen Modellanweisungen zu navigieren:
Qwen3.5-35B-A3B27B122B-A10B397B-A17BKlein (0.8B • 2B • 4B • 9B)LM Studio
Unsloth Dynamic GGUF-Uploads:
presence_penalty = 0.0 bis 2.0 Standardmäßig ist dies aus, aber um Wiederholungen zu reduzieren, kannst du dies verwenden; jedoch kann die Verwendung eines höheren Werts zu leichte Leistungseinbuße.
Derzeit funktioniert kein Qwen3.5-GGUF in Ollama aufgrund separater mmproj-Vision-Dateien. Verwende llama.cpp-kompatible Backends.
🦙 Llama.cpp Anleitungen
Qwen3.5-35B-A3B
Für diese Anleitung verwenden wir Dynamic 4-bit, das auf einem 24GB RAM / Mac-Gerät hervorragende Ergebnisse für schnelle Inferenz liefert. Da das Modell bei voller F16-Präzision nur etwa 72GB groß ist, müssen wir uns nicht allzu sehr um Leistung sorgen. GGUF: Qwen3.5-35B-A3B-GGUF
Für diese Tutorials werden wir llama.cpp für schnelle lokale Inferenz nutzen, insbesondere wenn du eine CPU hast.
Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp an einem bestimmten Ort gespeichert wird. Das Modell hat eine maximale Kontextlänge von 256K.
Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:
Denkmodus:
Präzise Codieraufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Denk-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging
Führe dann das Modell im Konversationsmodus aus:
Qwen3.5 Small (0.8B • 2B • 4B • 9B)
Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning deaktiviert standardmäßig. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'
Unter Windows verwende: --chat-template-kwargs "{\"enable_thinking\":true}"
Für die Qwen3.5 Small-Serie, da sie so klein sind, musst du nur den Modellnamen in den Skripten auf die gewünschte Variante ändern. Für diese spezielle Anleitung verwenden wir die 9B-Parameter-Variante. Um sie alle nahezu in voller Präzision auszuführen, benötigst du nur ein Gerät mit 12GB RAM / VRAM / Unified Memory. GGUFs:
Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du llama.cpp Direkt zum Laden von Modellen kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp an einem bestimmten Ort gespeichert wird. Das Modell hat eine maximale Kontextlänge von 256K.
Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:
Um eine andere Variante als 9B zu verwenden, kannst du die '9B' in: 0.8B, 2B oder 4B usw. ändern.
Denkmodus (standardmäßig deaktiviert)
Qwen3.5 Small-Modelle deaktivieren Denken standardmäßig. Verwende llama-server, um es zu aktivieren.
Allgemeine Aufgaben:
Um eine andere Variante als 9B zu verwenden, kannst du die '9B' in: 0.8B, 2B oder 4B usw. ändern.
Nicht-Denk-Modus ist standardmäßig bereits aktiviert
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging
Führe dann das Modell im Konversationsmodus aus:
Qwen3.5-27B
Für diese Anleitung verwenden wir Dynamic 4-bit, das auf einem 18GB RAM / Mac-Gerät hervorragend für schnelle Inferenz funktioniert. GGUF: Qwen3.5-27B-GGUF
Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp an einem bestimmten Ort gespeichert wird. Das Modell hat eine maximale Kontextlänge von 256K.
Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:
Denkmodus:
Präzise Codieraufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Denk-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging
Führe dann das Modell im Konversationsmodus aus:
Qwen3.5-122B-A10B
Für diese Anleitung verwenden wir Dynamic 4-bit, das auf einem 70GB RAM / Mac-Gerät hervorragend für schnelle Inferenz funktioniert. GGUF: Qwen3.5-122B-A10B-GGUF
Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp an einem bestimmten Ort gespeichert wird. Das Modell hat eine maximale Kontextlänge von 256K.
Führe einen der folgenden spezifischen Befehle aus, entsprechend deinem Anwendungsfall:
Denkmodus:
Präzise Codieraufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Denk-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging
Führe dann das Modell im Konversationsmodus aus:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B befindet sich in derselben Leistungsklasse wie Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2. Der vollständige 397B-Checkpoint belegt ~807GB auf der Festplatte, aber via Unsloths 397B GGUFs kannst du ausführen:
3-Bit: passt auf 192GB RAM Systeme (z. B. ein 192GB Mac)
4-Bit (MXFP4): passt auf 256GB RAM. Unsloth 4-Bit dynamic UD-Q4_K_XL ist ~214GB auf der Festplatte - lädt direkt auf einem 256GB M3 Ultra
Läuft auf einer einzelnen 24GB GPU + 256GB System-RAM via MoE-Offloading, erreicht 25+ Tokens/s
8-Bit benötigt ~512GB RAM/VRAM
Siehe 397B-Quantisierungs-Benchmarks wie Unsloth-GGUFs performen.
Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp um an einem bestimmten Ort zu speichern. Denke daran, dass das Modell nur eine maximale Kontextlänge von 256K hat.
Folge dem für Denken Modus:
Folge dem für nicht-denkend Modus:
Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen mindestens 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe: Hugging Face Hub, XET-Debugging
Du kannst --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, also wie viele Schichten. Versuche, es anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast.
👾 LM Studio Anleitung
Für diese Anleitung werden wir LM Studio, eine einheitliche UI-Schnittstelle zum Ausführen von LLMs, verwenden. Der '💡Thinking' und 'Non-thinking' Schalter erscheint möglicherweise nicht standardmäßig, daher sind zusätzliche Schritte erforderlich, um ihn zum Laufen zu bringen.
Herunterladen LM Studio für dein Gerät. Öffne dann Model Search, suche nach 'unsloth/qwen3.5' und lade die gewünschte GGUF (quant) herunter.

Anleitung für den Denk-Schalter: Nach dem Herunterladen öffne dein Terminal / PowerShell und versuche: lms --help. Wenn LM Studio dann normal mit vielen Befehlen erscheint, führe aus:
Dies holt eine YAML-Datei, die es deinem GGUF ermöglicht, den '💡Thinking' und 'Non-thinking' Schalter anzuzeigen. Du kannst 4b durch die gewünschte Quantisierung ersetzen, die du haben möchtest.

Andernfalls kannst du zu unserer LM Studio-Seite gehen und die spezifische YAML-Datei herunterladen.
Starte LM Studio neu und lade dann dein heruntergeladenes Modell (mit dem spezifischen Denk-Schalter). Du solltest jetzt den Denk-Schalter sehen. Vergiss nicht, die korrekten Parameter.

🦙 Llama-server Serving & OpenAIs Completion-Bibliothek
Um Qwen3.5-397B-A17B für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:
Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast, mache:
🤔 Wie man Reasoning & Denken aktiviert oder deaktiviert
Für die folgenden Befehle kannst du 'true' und 'false' austauschbar verwenden. Um den Denk-Schalter für LM Studio zu erhalten, lies unsere Anleitung.
Um deaktivieren Denken / Reasoning, verwende innerhalb von llama-server:
Wenn du auf Windows oder in Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":false}"
Um aktivieren Denken / Reasoning, verwende innerhalb von llama-server:
Wenn du auf Windows oder in Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":true}"
Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning standardmäßig deaktiviert. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'
Und unter Windows oder Powershell: --chat-template-kwargs "{\"enable_thinking\":true}"
Als Beispiel für Qwen3.5-9B, um Denken zu aktivieren (standardmäßig deaktiviert):
Und dann in Python:

👨💻 OpenAI Codex & Claude Code
Um das Modell für lokale, agentische Coding-Workloads auszuführen, kannst du unserer Anleitung folgen. Ändere einfach den Modellnamen in die gewünschte 'Qwen3.5'-Variante und stelle sicher, dass du die richtigen Qwen3.5-Parameter und Nutzungsanweisungen befolgst. Verwende das llama-server das wir gerade eingerichtet haben.
Nachdem du z. B. die Anweisungen für Claude Code befolgt hast, wirst du Folgendes sehen:

Dann können wir z. B. fragen Erstelle ein Python-Spiel für Schach :



🔨Tool-Aufrufe mit Qwen3.5
Siehe Tool Calling Guide für mehr Details, wie man Tool-Aufrufe macht. In einem neuen Terminal (wenn du tmux verwendest, nutze CTRL+B+D), erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:
Wir verwenden dann die untenstehenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:
Nachdem Qwen3.5 gestartet wurde über llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für weitere Details, können wir dann einige Tool-Aufrufe durchführen.
📊 Benchmarks
Unsloth GGUF-Benchmarks
Wir haben Qwen3.5-35B Unsloth Dynamic-Quants aktualisiert und damit SOTA bei nahezu allen Punkten. Wir führten über 150 KL-Divergenz-Benchmarks durch, insgesamt 9 TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen. Wir haben außerdem einen Tool-Aufruf Chat-Vorlage Fehler (betrifft alle Quant-Uploaders)
Alle GGUFs jetzt aktualisiert mit einer verbesserten Quantisierungs- Algorithmus.
Alle verwenden unser neues imatrix-Daten. Siehe einige Verbesserungen in Chat-, Coding-, Langkontext- und Tool-Aufruf-Anwendungsfällen.
Qwen3.5-35B-A3B GGUFs wurden aktualisiert, um neue Fixes zu verwenden (112B, 27B werden noch konvertiert, erneut herunterladen, sobald sie aktualisiert sind)
99,9% KL-Divergenz zeigt SOTA an der Pareto-Front für UD-Q4_K_XL, IQ3_XXS und mehr.
MXFP4 wird zurückgezogen aus allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, außer für reines MXFP4_MOE.


LESEN SIE HIER UNSERE DETAILLIERTE QWEN3.5-ANALYSE + BENCHMARKS:
Qwen3.5 GGUF-BenchmarksQwen3.5-397B-A17B-Benchmarks

Benjamin Marie (Drittanbieter) hat gebenchmarkt Qwen3.5-397B-A17B unter Verwendung von Unsloth GGUFs auf einem 750-Prompt-Mix-Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell Fehler macht im Vergleich zum Original).
Wichtige Ergebnisse (Genauigkeit; Änderung vs. Original; relative Fehlerzunahme):
Originalgewichte: 81.3%
UD-Q4_K_XL: 80.5% (−0,8 Punkte; +4,3% relative Fehlerzunahme)
UD-Q3_K_XL: 80.7% (−0,6 Punkte; +3,5% relative Fehlerzunahme)
UD-Q4_K_XL und UD-Q3_K_XL bleiben dem Original extrem nahe, weit unter einem Genauigkeitsverlust von 1 Punkt in dieser Suite, was Ben andeutet, dass man den Speicherbedarf stark reduzieren kann (~500 GB weniger) mit geringen bis keinen praktischen Verlusten bei den getesteten Aufgaben.
Wie man wählt: Dass Q3 hier leicht besser als Q4 abschneidet, ist bei dieser Größenordnung als normale Lauf-zu-Lauf-Varianz vollkommen plausibel, daher behandeln Sie Q3 und Q4 als effektiv gleichwertige Qualität in diesem Benchmark:
Wählen Sie Q3 wenn Sie den kleinsten Footprint / beste Speicherersparnisse wollen
Wählen Sie Q4 wenn Sie eine etwas konservativere Option mit ähnlichen Ergebnissen
Alle aufgeführten Quants nutzen unsere dynamische Methodik. Selbst UD-IQ2_M verwendet die gleiche dynamische Methodik, jedoch ist der Konvertierungsprozess anders als bei UD-Q2-K-XL wobei K-XL in der Regel schneller ist als UD-IQ2_M obwohl es größer ist, weshalb UD-IQ2_M besser abschneiden kann als UD-Q2-K-XL.
Offizielle Qwen-Benchmarks
Qwen3.5-35B-A3B, 27B und 122B-A10B-Benchmarks

Qwen3.5-4B- und 9B-Benchmarks

Qwen3.5-397B-A17B-Benchmarks

Zuletzt aktualisiert
War das hilfreich?

