💜Qwen3.5 - Anleitung zur lokalen Ausführung
Führe die neuen Qwen3.5-LLMs lokal auf deinem Gerät aus, einschließlich Medium: Qwen3.5-35B-A3B, 27B, 122B-A10B, Small: Qwen3.5-0.8B, 2B, 4B, 9B und 397B-A17B!
Qwen3.5 ist Alibabas neue Modellsammlung, einschließlich Qwen3.5-35B-A3B, 27B, 122B-A10B und 397B-A17B und die neue Klein Serie: Qwen3.5-0.8B, 2B, 4B und 9B. Die multimodalen Hybrid-Reasoning-LLMs liefern die stärksten Leistungen für ihre Größen. Sie unterstützen 256K Kontext in 201 Sprachen, haben Denken + nicht-Denken und zeichnen sich bei agentischem Codieren, Vision, Chat und Aufgaben mit langem Kontext aus. Die 35B- und 27B-Modelle laufen auf einem 22GB Mac / RAM-Gerät. Siehe alle GGUFs hier.
Update vom 5. März: Lade Qwen3.5- erneut herunter35B, 27B, 122B und 397B.
Alle GGUFs jetzt aktualisiert mit einer verbesserten Quantisierungs- Algorithmus.
Alle verwenden unser neues imatrix-Daten. Siehe einige Verbesserungen in Chat-, Coding-, Langkontext- und Tool-Calling-Anwendungsfällen.
Tool-Calling verbessert nach unseren Korrekturen an der Chat-Vorlage. Die Korrektur ist universell und gilt für jede Qwen3.5-Format und jede Uploader.
Überprüfe neue GGUF-Benchmarks für Unsloth-Leistungsergebnisse + unsere MXFP4-Untersuchung.
Wir entfernen MXFP4-Schichten aus 3 Qwen3.5-GGUFs: Q2_K_XL, Q3_K_XL und Q4_K_XL.
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung - daher werden bei 4-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Qwen für die Bereitstellung des Day-Zero-Zugriffs für Unsloth. Du kannst auch feinabstimmen Qwen3.5 mit Unsloth.
Um Denken zu aktivieren oder zu deaktivieren siehe Qwen3.5. Qwen3.5 Small-Modelle sind standardmäßig deaktiviert. Siehe auch LM Studio Anleitung um den Think-Schalter zu aktivieren.
35B-A3B27B122B-A10B397B-A17BFeinabstimmung Qwen3.50.8B • 2B • 4B • 9B
⚙️ Nutzungsanleitung
Tabelle: Inferenz-Hardwareanforderungen (Einheiten = Gesamtspeicher: RAM + VRAM oder Unified Memory)
Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + Systemspeicher) größer ist als die Größe der quantisierten Modellsdatei, die du herunterlädst. Falls nicht, kann llama.cpp weiterhin über SSD/HDD-Offloading laufen, aber die Inferenz wird langsamer sein.
Zwischen 27B und 35B-A3B, verwende 27B, wenn du etwas genauere Ergebnisse möchtest und es nicht auf dein Gerät passt. Wähle 35B-A3B, wenn du viel schnellere Inferenz möchtest.
Empfohlene Einstellungen
Maximales Kontextfenster:
262,144(kann via YaRN auf 1M erweitert werden)presence_penalty = 0.0 bis 2.0Standardmäßig ist dies ausgeschaltet, aber um Wiederholungen zu reduzieren, kannst du dies verwenden; ein höherer Wert kann jedoch zu leichter LeistungsabnahmeAusreichende Ausgabelänge:
32,768Tokens für die meisten Anfragen
Wenn du Kauderwelsch erhältst, ist möglicherweise deine Kontextlänge zu niedrig eingestellt. Oder versuche --cache-type-k bf16 --cache-type-v bf16 was helfen könnte.
Da Qwen3.5 hybrides Reasoning ist, haben Denk- und Nicht-Denk-Modus unterschiedliche Einstellungen:
Denkmodus:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Denkmodus für allgemeine Aufgaben:
Denkmodus für präzise Codieraufgaben:
Instruct (Nicht-Denk) Modus Einstellungen:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Um Denken / Reasoning zu deaktivieren, verwende --chat-template-kwargs '{"enable_thinking":false}'
Wenn du auf Windows Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":false}"
Verwende 'true' und 'false' austauschbar.
Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning standardmäßig deaktiviert. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'
Instruct (Nicht-Denk) für allgemeine Aufgaben:
Instruct (Nicht-Denk) für Reasoning-Aufgaben:
Qwen3.5 Inferenz-Tutorials:
Weil Qwen3.5 in vielen verschiedenen Größen kommt, verwenden wir Dynamic 4-Bit MXFP4_MOE GGUF-Varianten für alle Inferenz-Workloads. Klicke unten, um zu den jeweiligen Modellanweisungen zu navigieren:
Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall (0.8B • 2B • 4B • 9B)LM Studio
Unsloth Dynamic GGUF Uploads:
presence_penalty = 0.0 bis 2.0 Standardmäßig ist dies ausgeschaltet, aber um Wiederholungen zu reduzieren, kannst du dies verwenden; ein höherer Wert kann jedoch zu leichte Leistungsabnahme.
Derzeit funktioniert kein Qwen3.5-GGUF in Ollama aufgrund separater mmproj-Vision-Dateien. Verwende llama.cpp-kompatible Backends.
🦙 Llama.cpp Anleitungen
Qwen3.5-35B-A3B
Für diese Anleitung werden wir Dynamic 4-Bit verwenden, das auf einem 24GB RAM / Mac-Gerät für schnelle Inferenz großartig funktioniert. Da das Modell bei voller F16-Präzision nur etwa 72GB groß ist, müssen wir uns nicht allzu sehr um Leistung sorgen. GGUF: Qwen3.5-35B-A3B-GGUF
Für diese Tutorials werden wir llama.cpp für schnelle lokale Inferenz verwenden, besonders wenn du eine CPU hast.
Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Wenn du direkt llama.cpp verwenden möchtest, um Modelle zu laden, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Folge einem der spezifischen Befehle unten, je nach Anwendungsfall:
Denkmodus:
Präzise Codieraufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Denk-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit Dynamic-Quant zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führe das Modell im Konversationsmodus aus:
Qwen3.5 Small (0.8B • 2B • 4B • 9B)
Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning deaktiviert standardmäßig. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'
Unter Windows verwende: --chat-template-kwargs "{\"enable_thinking\":true}"
Für die Qwen3.5 Small-Serie, da sie so klein sind, musst du nur den Modellnamen in den Skripten auf die gewünschte Variante ändern. Für diese spezielle Anleitung verwenden wir die 9B-Parameter-Variante. Um sie alle in nahezu voller Präzision auszuführen, benötigst du nur ein Gerät mit 12GB RAM / VRAM / Unified Memory. GGUFs:
Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du direkt llama.cpp Wenn du direkt Modelle laden möchtest, kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Folge einem der spezifischen Befehle unten, je nach Anwendungsfall:
Um eine andere Variante als 9B zu verwenden, kannst du die '9B' in: 0.8B, 2B oder 4B usw. ändern.
Denkmodus (standardmäßig deaktiviert)
Qwen3.5 Small-Modelle deaktivieren Denken standardmäßig. Verwende llama-server, um es zu aktivieren.
Allgemeine Aufgaben:
Um eine andere Variante als 9B zu verwenden, kannst du die '9B' in: 0.8B, 2B oder 4B usw. ändern.
Nicht-Denk-Modus ist standardmäßig bereits aktiviert
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit Dynamic-Quant zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führe das Modell im Konversationsmodus aus:
Qwen3.5-27B
Für diese Anleitung werden wir Dynamic 4-Bit verwenden, das auf einem 18GB RAM / Mac-Gerät für schnelle Inferenz großartig funktioniert. GGUF: Qwen3.5-27B-GGUF
Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du direkt llama.cpp verwenden möchtest, um Modelle zu laden, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Folge einem der spezifischen Befehle unten, je nach Anwendungsfall:
Denkmodus:
Präzise Codieraufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Denk-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit Dynamic-Quant zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führe das Modell im Konversationsmodus aus:
Qwen3.5-122B-A10B
Für diese Anleitung werden wir Dynamic 4-Bit verwenden, das auf einem 70GB RAM / Mac-Gerät für schnelle Inferenz großartig funktioniert. GGUF: Qwen3.5-122B-A10B-GGUF
Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du direkt llama.cpp verwenden möchtest, um Modelle zu laden, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Folge einem der spezifischen Befehle unten, je nach Anwendungsfall:
Denkmodus:
Präzise Codieraufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Denk-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit Dynamic-Quant zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führe das Modell im Konversationsmodus aus:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B befindet sich in derselben Leistungsstufe wie Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2. Der vollständige 397B-Checkpoint ist ~807GB auf der Festplatte, aber über Unsloths 397B GGUFs kannst du ausführen:
3-Bit: passt auf 192GB RAM Systeme (z. B. ein 192GB Mac)
4-Bit (MXFP4): passt auf 256GB RAM. Unsloth 4-Bit dynamic UD-Q4_K_XL ist ~214GB auf der Festplatte - lädt direkt auf einem 256GB M3 Ultra
Läuft auf einer einzelnen 24GB GPU + 256GB Systemspeicher via MoE-Offloading, erreicht 25+ Tokens/s
8-Bit benötigt ~512GB RAM/VRAM
Siehe 397B-Quantisierungs-Benchmarks wie Unsloth-GGUFs performen.
Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wenn du direkt llama.cpp verwenden möchtest, um Modelle zu laden, kannst du Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich zu ollama run . Verwende export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp um an einen bestimmten Ort zu speichern. Denk daran, das Modell hat nur eine maximale Kontextlänge von 256K.
Folge dem für Denken Modus:
Folge dem für nicht-denkend Modus:
Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit Dynamic-Quant zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Du kannst bearbeiten --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, wie viele Schichten. Versuche es anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast.
👾 LM Studio Anleitung
Für diese Anleitung verwenden wir LM Studio, eine einheitliche UI-Oberfläche zum Ausführen von LLMs. Der '💡Thinking' und 'Non-thinking' Schalter erscheint möglicherweise nicht standardmäßig, daher sind einige zusätzliche Schritte erforderlich, um ihn zu aktivieren.
Lade herunter LM Studio für dein Gerät. Dann öffne die Modellsuche, suche nach 'unsloth/qwen3.5' und lade das gewünschte GGUF (quant) herunter.

Anleitung für den Thinking-Schalter: Nach dem Herunterladen öffne dein Terminal / PowerShell und versuche: lms --help. Wenn LM Studio dann normal mit vielen Befehlen erscheint, führe aus:
Dies wird eine YAML-Datei holen, die deinem GGUF ermöglicht, den '💡Thinking' und 'Non-thinking' Schalter anzuzeigen. Du kannst 4b auf die gewünschte Quantisierung ändern, die du haben möchtest.

Alternativ kannst du zu unserer LM Studio-Seite gehen und die spezifische YAML-Datei herunterladen.
Starte LM Studio neu, lade dann dein heruntergeladenes Modell (mit dem spezifischen Thinking-Schalter, den du heruntergeladen hast). Du solltest nun den Thinking-Schalter sehen. Vergiss nicht, die korrekten Parameter.

🦙 Llama-server Serving & OpenAIs Completion-Bibliothek
Um Qwen3.5-397B-A17B für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, setze das Modell wie folgt ein:
Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast, mache:
🤔 Wie man Reasoning & Thinking aktiviert oder deaktiviert
Für die untenstehenden Befehle kannst du 'true' und 'false' austauschbar verwenden. Um Denken-Schalter für LM Studio zu haben, lies unsere Anleitung.
Um deaktivieren Denken / Reasoning, verwende innerhalb von llama-server:
Wenn du auf Windows oder in Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":false}"
Um aktivieren Denken / Reasoning, verwende innerhalb von llama-server:
Wenn du auf Windows oder in Powershell, verwende: --chat-template-kwargs "{\"enable_thinking\":true}"
Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning standardmäßig deaktiviert. Um es zu aktivieren, verwende: --chat-template-kwargs '{"enable_thinking":true}'
Und unter Windows oder Powershell: --chat-template-kwargs "{\"enable_thinking\":true}"
Als Beispiel für Qwen3.5-9B, um Denken zu aktivieren (standardmäßig deaktiviert):
Und dann in Python:

👨💻 OpenAI Codex & Claude Code
Um das Modell für lokale agentische Coding-Workloads auszuführen, kannst du unserer Anleitung folgen. Ändere einfach den Modellnamen auf die gewünschte 'Qwen3.5'-Variante und stelle sicher, dass du die richtigen Qwen3.5-Parameter und Nutzungsanweisungen befolgst. Verwende das llama-server das wir gerade eingerichtet haben.
Nachdem du z. B. die Anleitung für Claude Code befolgt hast, wirst du sehen:

Wir können dann zum Beispiel fragen Erstelle ein Python-Spiel für Schach :



🔨Tool-Calling mit Qwen3.5
Siehe Tool Calling Guide für weitere Details, wie man Tool-Calling macht. In einem neuen Terminal (wenn du tmux verwendest, benutze CTRL+B+D), erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:
Wir verwenden dann die untenstehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:
Nachdem Qwen3.5 gestartet wurde über llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für mehr Details, können wir dann einige Tool-Aufrufe durchführen.
📊 Benchmarks
Unsloth GGUF Benchmarks
Wir haben Qwen3.5-35B Unsloth Dynamic Quants aktualisiert ist SOTA bei nahezu allen Punkten. Wir haben über 150 KL-Divergenz-Benchmarks durchgeführt, insgesamt 9TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen. Wir haben auch einen Tool-Aufruf Chat-Vorlage Fehler (betroffen sind alle Quant-Uploader)
Alle GGUFs jetzt aktualisiert mit einer verbesserten Quantisierungs- Algorithmus.
Alle verwenden unser neues imatrix-Daten. Siehe einige Verbesserungen in Chat-, Coding-, Langkontext- und Tool-Calling-Anwendungsfällen.
Qwen3.5-35B-A3B GGUFs wurden aktualisiert, um neue Fixes zu verwenden (112B, 27B werden noch konvertiert, erneut herunterladen, sobald sie aktualisiert sind)
99,9% KL-Divergenz zeigt SOTA auf der Pareto-Front für UD-Q4_K_XL, IQ3_XXS & mehr.
Rückzug von MXFP4 aus allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, außer für reines MXFP4_MOE.


LESEN SIE UNSERE DETAILLIERTE QWEN3.5-ANALYSE + BENCHMARKS HIER:
Qwen3.5 GGUF-BenchmarksQwen3.5-397B-A17B Benchmarks

Benjamin Marie (Drittpartei) hat gebenchmarkt Qwen3.5-397B-A17B unter Verwendung von Unsloth GGUFs auf einem 750-Prompt-Mix-Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell Fehler macht vs. dem Original).
Wichtige Ergebnisse (Genauigkeit; Veränderung vs. Original; relative Fehlerzunahme):
Originalgewichte: 81.3%
UD-Q4_K_XL: 80.5% (−0,8 Punkte; +4,3% relative Fehlerzunahme)
UD-Q3_K_XL: 80.7% (−0,6 Punkte; +3,5% relative Fehlerzunahme)
UD-Q4_K_XL und UD-Q3_K_XL bleiben dem Original extrem nahe, weit unter einem Genauigkeitsverlust von 1 Punkt in dieser Suite, was Ben andeutet, dass man den Speicherbedarf drastisch reduzieren kann (~500 GB weniger) mit wenig bis keinem praktischen Verlust bei den getesteten Aufgaben.
Wie man wählt: Dass Q3 hier leicht besser abschneidet als Q4 ist völlig plausibel als normale Lauf-zu-Lauf-Varianz in diesem Maßstab, also behandeln Sie Q3 und Q4 als praktisch gleichwertige Qualität in diesem Benchmark:
Wähle Q3 wenn du das kleinste Fußabdruck / beste Einsparung im Speicher
Wähle Q4 wenn du eine etwas konservativere Option mit ähnlichen Ergebnissen
Alle aufgelisteten Quants nutzen unsere dynamische Methodik. Sogar UD-IQ2_M verwendet dieselbe dynamische Methodik, jedoch ist der Konvertierungsprozess anders als bei UD-Q2-K-XL wobei K-XL normalerweise schneller ist als UD-IQ2_M obwohl es größer ist, daher ist das der Grund, warum UD-IQ2_M besser abschneiden könnte als UD-Q2-K-XL.
Offizielle Qwen-Benchmarks
Qwen3.5-35B-A3B, 27B und 122B-A10B Benchmarks

Qwen3.5-4B und 9B Benchmarks

Qwen3.5-397B-A17B Benchmarks

Zuletzt aktualisiert
War das hilfreich?

