💜Qwen3.5 - Anleitung zum lokalen Ausführen
Führe die neuen Qwen3.5-LLMs lokal auf deinem Gerät aus, einschließlich Medium: Qwen3.5-35B-A3B, 27B, 122B-A10B, Small: Qwen3.5-0.8B, 2B, 4B, 9B und 397B-A17B!
Qwen3.5 ist Alibabas neue Modellsammlung, einschließlich Qwen3.5-35B-A3B, 27B, 122B-A10B und 397B-A17B und der neuen Small Serie: Qwen3.5-0.8B, 2B, 4B und 9B. Die multimodalen Hybrid-Reasoning-LLMs liefern die stärksten Leistungen für ihre Größen. Sie unterstützen 256K Kontext über 201 Sprachen, haben Denken + nicht-Denken, und glänzen bei agentischen Codier-, Vision-, Chat- und Langkontext-Aufgaben. Die 35B- und 27B-Modelle laufen auf einem 22GB Mac / RAM-Gerät. Siehe alle GGUFs hier.
Update 5. März: Lade Qwen3.5-35B, 27B, 122B und 397B.
Alle GGUFs jetzt mit einer verbesserten Quantisierungs- Algorithmus.
Alle verwenden unser neues imatrix-Daten. Siehe einige Verbesserungen bei Chat-, Coding-, Langkontext- und Tool-Calling-Anwendungsfällen.
Tool-Calling verbessert nach unseren Korrekturen an der Chat-Vorlage. Die Korrektur ist universell und gilt für jedes Qwen3.5-Format und jedes Uploader.
Prüfe neue GGUF-Benchmarks für Unsloth-Leistungsergebnisse + unsere MXFP4-Untersuchung.
Wir entfernen MXFP4-Schichten aus 3 Qwen3.5-GGUFs: Q2_K_XL, Q3_K_XL und Q4_K_XL.
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung - daher werden bei 4-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Qwen, dass Unsloth Day-Zero-Zugriff gewährt wurde. Sie können auch feinabstimmen Qwen3.5 mit Unsloth.
Um Denken zu aktivieren oder zu deaktivieren siehe Qwen3.5. Qwen3.5 Small-Modelle sind standardmäßig deaktiviert. Siehe auch LM Studio Anleitung um den Think-Schalter zu aktivieren.
35B-A3B27B122B-A10B397B-A17BFeinabstimmung Qwen3.50.8B • 2B • 4B • 9B
⚙️ Nutzungsanleitung
Tabelle: Inferenz-Hardwareanforderungen (Einheiten = Gesamtspeicher: RAM + VRAM oder Unified Memory)
Für beste Leistung stellen Sie sicher, dass Ihr insgesamt verfügbarer Speicher (VRAM + System-RAM) die Größe der quantisierten Modell-Datei, die Sie herunterladen, übersteigt. Wenn dies nicht der Fall ist, kann llama.cpp weiterhin über SSD/HDD-Offloading laufen, aber die Inferenz wird langsamer sein.
Zwischen 27B und 35B-A3B, verwenden Sie 27B, wenn Sie etwas genauere Ergebnisse möchten und es nicht auf Ihr Gerät passt. Wählen Sie 35B-A3B, wenn Sie deutlich schnellere Inferenz wünschen.
Empfohlene Einstellungen
Maximales Kontextfenster:
262,144(kann via YaRN auf 1M erweitert werden)presence_penalty = 0.0 bis 2.0Standardmäßig ist dies aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden, jedoch kann die Verwendung eines höheren Wertes zu leichter LeistungsabnahmeAngemessene Ausgabelänge:
32,768Tokens für die meisten Anfragen
Wenn Sie Kauderwelsch erhalten, ist Ihre Kontextlänge möglicherweise zu niedrig eingestellt. Oder versuchen Sie --cache-type-k bf16 --cache-type-v bf16 was helfen könnte.
Da Qwen3.5 Hybrid-Reasoning ist, haben Denk- und Nicht-Denk-Modus unterschiedliche Einstellungen:
Denkmodus:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Denkmodus für allgemeine Aufgaben:
Denkmodus für präzise Codieraufgaben:
Instruct (Nicht-Denk) Modus Einstellungen:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Um Denken / Reasoning zu deaktivieren, verwenden Sie --chat-template-kwargs '{"enable_thinking":false}'
Wenn Sie auf Windows Powershell, verwenden Sie: --chat-template-kwargs "{\"enable_thinking\":false}"
Verwenden Sie 'true' und 'false' austauschbar.
Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning standardmäßig deaktiviert. Um es zu aktivieren, verwenden Sie: --chat-template-kwargs '{"enable_thinking":true}'
Instruct (Nicht-Denk) für allgemeine Aufgaben:
Instruct (Nicht-Denk) für Reasoning-Aufgaben:
Qwen3.5 Inferenz-Tutorials:
Weil Qwen3.5 in vielen verschiedenen Größen kommt, werden wir Dynamic 4-bit verwenden MXFP4_MOE GGUF-Varianten für alle Inferenz-Workloads. Klicken Sie unten, um zu den vorgesehenen Modellanweisungen zu navigieren:
Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall (0.8B • 2B • 4B • 9B)LM Studio
Unsloth Dynamic GGUF Uploads:
presence_penalty = 0.0 bis 2.0 Standardmäßig ist dies aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden, jedoch kann die Verwendung eines höheren Wertes zu leichte Leistungsabnahme.
Derzeit funktioniert kein Qwen3.5-GGUF in Ollama aufgrund separater mmproj-Vision-Dateien. Verwenden Sie llama.cpp-kompatible Backends.
Qwen3.5-35B-A3B
Für diese Anleitung werden wir Dynamic 4-bit verwenden, das auf einem 24GB RAM / Mac-Gerät großartige schnelle Inferenz ermöglicht. Da das Modell bei voller F16-Präzision nur etwa 72GB groß ist, müssen wir uns nicht allzu sehr um Leistung sorgen. GGUF: Qwen3.5-35B-A3B-GGUF
🦙 Llama.cpp Anleitungen
Für diese Tutorials werden wir verwenden llama.cpp für schnelle lokale Inferenz, insbesondere wenn Sie eine CPU haben.
Beschaffen Sie das neueste llama.cpp auf GitHub hier. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.
Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Führen Sie einen der spezifischen Befehle unten aus, entsprechend Ihrem Anwendungsfall:
Denkmodus:
Präzise Codieraufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Denk-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen die Verwendung von mindestens 2-Bit Dynamic Quant UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Führen Sie dann das Modell im Konversationsmodus aus:
Qwen3.5 Small (0.8B • 2B • 4B • 9B)
Für Qwen3.5 0.8B, 2B, 4B und 9B, Reasoning ist deaktiviert standardmäßig. Um es zu aktivieren, verwenden Sie: --chat-template-kwargs '{"enable_thinking":true}'
Unter Windows verwenden Sie: --chat-template-kwargs "{\"enable_thinking\":true}"
Für die Qwen3.5 Small-Serie, da sie so klein sind, müssen Sie nur den Modellnamen in den Skripten auf die gewünschte Variante ändern. Für diese spezielle Anleitung verwenden wir die 9B-Parameter-Variante. Um sie alle in nahezu voller Präzision auszuführen, benötigen Sie nur ein Gerät mit 12GB RAM / VRAM / Unified Memory. GGUFs:
Beschaffen Sie das neueste llama.cpp auf GitHub hier. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.
Wenn Sie llama.cpp direkt zum Laden von Modellen können Sie Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Führen Sie einen der spezifischen Befehle unten aus, entsprechend Ihrem Anwendungsfall:
Um eine andere Variante als 9B zu verwenden, können Sie die '9B' in: 0.8B, 2B oder 4B usw. ändern.
Denkmodus (standardmäßig deaktiviert)
Qwen3.5 Small-Modelle deaktivieren Denken standardmäßig. Verwenden Sie llama-server, um es zu aktivieren.
Allgemeine Aufgaben:
Um eine andere Variante als 9B zu verwenden, können Sie die '9B' in: 0.8B, 2B oder 4B usw. ändern.
Nicht-Denk-Modus ist bereits standardmäßig aktiviert
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen die Verwendung von mindestens 2-Bit Dynamic Quant UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Führen Sie dann das Modell im Konversationsmodus aus:
Qwen3.5-27B
Für diese Anleitung werden wir Dynamic 4-bit verwenden, das auf einem 18GB RAM / Mac-Gerät großartige schnelle Inferenz ermöglicht. GGUF: Qwen3.5-27B-GGUF
Beschaffen Sie das neueste llama.cpp auf GitHub hier. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.
Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Führen Sie einen der spezifischen Befehle unten aus, entsprechend Ihrem Anwendungsfall:
Denkmodus:
Präzise Codieraufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Denk-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können wählen MXFP4_MOE oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen die Verwendung von mindestens 2-Bit Dynamic Quant UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Führen Sie dann das Modell im Konversationsmodus aus:
Qwen3.5-122B-A10B
Für diese Anleitung werden wir Dynamic 4-bit verwenden, das auf einem 70GB RAM / Mac-Gerät großartige schnelle Inferenz ermöglicht. GGUF: Qwen3.5-122B-A10B-GGUF
Beschaffen Sie das neueste llama.cpp auf GitHub hier. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.
Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einen bestimmten Ort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.
Führen Sie einen der spezifischen Befehle unten aus, entsprechend Ihrem Anwendungsfall:
Denkmodus:
Präzise Codieraufgaben (z. B. WebDev):
Allgemeine Aufgaben:
Nicht-Denk-Modus:
Allgemeine Aufgaben:
Reasoning-Aufgaben:
Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können wählen MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen die Verwendung von mindestens 2-Bit Dynamic Quant UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Führen Sie dann das Modell im Konversationsmodus aus:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B befindet sich in derselben Leistungsklasse wie Gemini 3 Pro, Claude Opus 4.5 und GPT-5.2. Der vollständige 397B-Checkpoint belegt ~807GB auf der Festplatte, aber über Unsloths 397B-GGUFs können Sie laufen:
3-Bit: passt auf 192GB RAM Systeme (z. B. ein 192GB Mac)
4-Bit (MXFP4): passt auf 256GB RAM. Unsloth 4-Bit dynamic UD-Q4_K_XL ist ~214GB auf der Festplatte - lädt direkt auf einem 256GB M3 Ultra
Läuft auf einer einzigen 24GB GPU + 256GB System-RAM via MoE-Offloading, erreicht 25+ Token/s
8-Bit benötigt ~512GB RAM/VRAM
Siehe 397B-Quantisierungs-Benchmarks wie Unsloth-GGUFs abschneiden.
Beschaffen Sie das neueste llama.cpp auf GitHub hier. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.
Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_M) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp um an einen bestimmten Ort zu speichern. Denken Sie daran, dass das Modell nur eine maximale Kontextlänge von 256K hat.
Folgen Sie dies für Denken Modus:
Folgen Sie dies für nicht-denkend Modus:
Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können wählen MXFP4_MOE (dynamic 4bit) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir empfehlen die Verwendung von mindestens 2-Bit Dynamic Quant UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Sie können bearbeiten --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, wie viele Schichten. Versuchen Sie, dies anzupassen, wenn Ihre GPU nicht mehr ausreichend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
👾 LM Studio Anleitung
Für diese Anleitung verwenden wir LM Studio, eine einheitliche UI-Oberfläche zum Ausführen von LLMs. Der '💡Thinking' und der 'Non-thinking' Schalter erscheinen möglicherweise nicht standardmäßig, daher sind einige zusätzliche Schritte erforderlich, um ihn zum Laufen zu bringen.
Laden Sie herunter LM Studio für Ihr Gerät. Öffnen Sie dann die Modellsuche, suchen Sie nach 'unsloth/qwen3.5' und laden Sie die gewünschte GGUF (quant) herunter.

Anleitung zum Thinking-Schalter: Nach dem Herunterladen öffnen Sie Ihr Terminal / PowerShell und versuchen Sie: lms --help. Wenn LM Studio normal mit vielen Befehlen erscheint, führen Sie aus:
Dies holt eine YAML-Datei, die Ihrer GGUF ermöglicht, den '💡Thinking' und 'Non-thinking' Schalter anzuzeigen. Sie können 4b in die gewünschte Quantisierung ändern, die Sie verwenden möchten.

Andernfalls können Sie zu unserer LM Studio-Seite gehen und die spezifische YAML-Datei herunterladen.
Starten Sie LM Studio neu und laden Sie dann Ihr heruntergeladenes Modell (mit dem spezifischen Thinking-Schalter, den Sie heruntergeladen haben). Sie sollten jetzt den Thinking-Schalter aktiviert sehen. Vergessen Sie nicht, die korrekten Parameter.

🦙 Llama-server Serving & OpenAIs Completion-Bibliothek
Um Qwen3.5-397B-A17B für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal sagen Sie z. B. via tmux, stellen Sie das Modell bereit via:
Dann in einem neuen Terminal, nachdem Sie pip install openai, tun Sie:
🤔 Wie man Reasoning & Thinking aktiviert oder deaktiviert
Für die untenstehenden Befehle können Sie 'true' und 'false ' austauschbar verwenden. Um Think-Schalter für LM Studio zu erhalten, lesen Sie unsere Anleitung.
Um deaktivieren Denken / Reasoning, verwenden Sie innerhalb von llama-server:
Wenn Sie auf Windows oder Powershell, verwenden Sie: --chat-template-kwargs "{\"enable_thinking\":false}"
Um aktivieren Denken / Reasoning, verwenden Sie innerhalb von llama-server:
Wenn Sie auf Windows oder Powershell, verwenden Sie: --chat-template-kwargs "{\"enable_thinking\":true}"
Für Qwen3.5 0.8B, 2B, 4B und 9B ist Reasoning standardmäßig deaktiviert. Um es zu aktivieren, verwenden Sie: --chat-template-kwargs '{"enable_thinking":true}'
Und unter Windows oder Powershell: --chat-template-kwargs "{\"enable_thinking\":true}"
Als Beispiel für Qwen3.5-9B, um Denken zu aktivieren (standardmäßig deaktiviert):
Und dann in Python:

👨💻 OpenAI Codex & Claude Code
Um das Modell für lokale agentische Coding-Workloads auszuführen, können Sie unserer Anleitung folgen. Ändern Sie einfach den Modellnamen 'GLM-4.7-Flash' in Ihre gewünschte 'Qwen3.5'-Variante und stellen Sie sicher, dass Sie die korrekten Qwen3.5-Parameter und Nutzungsanweisungen befolgen. Verwenden Sie das llama-server wir gerade eingerichtet haben.
Nach Befolgung der Anweisungen für Claude Code zum Beispiel werden Sie sehen:

Dann können wir zum Beispiel fragen Erstelle ein Python-Spiel für Schach :



🔨Tool Calling mit Qwen3.5
Siehe Tool Calling Guide für weitere Details, wie man Tool-Calling macht. In einem neuen Terminal (wenn Sie tmux verwenden, nutzen Sie CTRL+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:
Wir verwenden dann die untenstehenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:
Nach dem Start von Qwen3.5 via llama-server wie in Qwen3.5 oder siehe Tool Calling Guide für mehr Details, können wir dann einige Tool-Aufrufe durchführen.
📊 Benchmarks
Unsloth GGUF-Benchmarks
Wir haben Qwen3.5-35B Unsloth Dynamic-Quants aktualisiert stand als SOTA bei nahezu allen Bits. Wir führten über 150 KL-Divergenz-Benchmarks durch, insgesamt 9TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen. Wir haben auch einen Tool-Aufruf Chat-Vorlage Fehler (betrifft alle Quant-Upload-Tools)
Alle GGUFs jetzt mit einer verbesserten Quantisierungs- Algorithmus.
Alle verwenden unser neues imatrix-Daten. Siehe einige Verbesserungen bei Chat-, Coding-, Langkontext- und Tool-Calling-Anwendungsfällen.
Qwen3.5-35B-A3B GGUFs wurden aktualisiert, um neue Korrekturen zu verwenden (112B, 27B werden noch konvertiert, erneut herunterladen, sobald sie aktualisiert wurden)
99,9% KL-Divergenz zeigt SOTA auf der Pareto-Grenze für UD-Q4_K_XL, IQ3_XXS und mehr.
Rückzug von MXFP4 aus allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, außer für reines MXFP4_MOE.


LESEN SIE UNSERE DETAILLIERTE QWEN3.5-ANALYSE + BENCHMARKS HIER:
Qwen3.5 GGUF-BenchmarksQwen3.5-397B-A17B Benchmarks

Benjamin Marie (Drittanbieter) hat bewertet Qwen3.5-397B-A17B unter Verwendung von Unsloth GGUFs auf einem 750-Prompt gemischten Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell Fehler macht im Vergleich zum Original).
Wichtigste Ergebnisse (Genauigkeit; Veränderung gegenüber dem Original; relative Fehlerzunahme):
Ursprüngliche Gewichte: 81.3%
UD-Q4_K_XL: 80.5% (−0,8 Punkte; +4,3% relative Fehlerzunahme)
UD-Q3_K_XL: 80.7% (−0,6 Punkte; +3,5% relative Fehlerzunahme)
UD-Q4_K_XL und UD-Q3_K_XL bleiben dem Original extrem nahe, weit unter einem Genauigkeitsverlust von 1 Punkt in dieser Suite, was Ben andeutet, dass man den Speicherbedarf deutlich reduzieren kann (~500 GB weniger) mit nur geringem bis keinem praktischen Verlust bei den getesteten Aufgaben.
Wie man wählt: Dass Q3 hier etwas besser als Q4 abschneidet, ist völlig plausibel als normale Lauf-zu-Lauf-Varianz in diesem Maßstab, also behandeln Sie Q3 und Q4 als effektiv gleichwertige Qualität in diesem Benchmark:
Wähle Q3 wenn du den kleinsten Fußabdruck / die besten Speicherersparnisse möchtest
Wähle Q4 wenn du eine etwas konservativere Option mit ähnlichen Ergebnissen
Alle aufgeführten Quants nutzen unsere dynamische Methodik. Sogar UD-IQ2_M verwendet dieselbe dynamische Methodik, jedoch ist der Konvertierungsprozess anders als bei UD-Q2-K-XL wo K-XL normalerweise schneller ist als UD-IQ2_M obwohl es größer ist, daher ist das der Grund, warum UD-IQ2_M besser abschneiden kann als UD-Q2-K-XL.
Offizielle Qwen-Benchmarks
Qwen3.5-35B-A3B, 27B und 122B-A10B Benchmarks

Qwen3.5-4B und 9B Benchmarks

Qwen3.5-397B-A17B Benchmarks

Zuletzt aktualisiert
War das hilfreich?

