> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/modelle/qwen3.6.md). # Qwen3.6 - So führst du es lokal aus Qwen3.6 ist Alibabas neue Familie multimodaler Hybrid-Reasoning-Modelle, einschließlich: **Qwen3.6-27B** und **35B-A3B**. Es liefert Spitzenleistung für seine Größe und unterstützt 256K Kontext in 201 Sprachen. Es glänzt bei agentischem Programmieren sowie bei Vision- und Chat-Aufgaben. Qwen3.6-27B läuft auf **18 GB RAM** Konfigurationen und 35B-A3B läuft auf **22 GB**. Sie können die Modelle jetzt in [Unsloth Studio](#unsloth-studio-guide). {% hint style="success" %} **NEU:** [**Qwen3.6 MTP ist da**](#mtp-guide)**! MTP ermöglicht 1,4-2,2x schnellere Inferenz ohne Genauigkeitsverlust. Führen Sie MTP direkt in** [**Unsloth Studio**](#unsloth-studio-mtp-guide)**.** Wir haben [Qwen3.6 GGUF-Benchmarks](#unsloth-gguf-benchmarks) durchgeführt, um Ihnen bei der Auswahl der besten Quant zu helfen. {% endhint %} Qwen3.6-Tutorials ausführen MTP-Leitfaden {% columns %} {% column %} Qwen3.6 GGUFs verwenden Unsloth [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) für SOTA-Quant-Performance – daher werden die Quants auf Datensätzen aus realen Anwendungsfällen kalibriert und wichtige Schichten werden hochgestuft. *Danke an Qwen für den Zugriff ab Tag Null.* * **Unterstützung für die Entwicklerrolle** für Codex, OpenCode und mehr:\ Unsere Uploads unterstützen jetzt die `Entwicklerrolle` für agentische Programmierwerkzeuge. * **Tool-Aufruf:** Wie [Qwen3.5](/docs/de/modelle/qwen3.5.md), haben wir das Parsen verschachtelter Objekte verbessert, damit Tool-Aufrufe zuverlässiger funktionieren. {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} ### :gear: Nutzungsanleitung **Tabelle: Hardwareanforderungen für die Inferenz** (Einheiten = Gesamtspeicher: RAM + VRAM oder gemeinsamer Speicher)

Qwen3.6	3-Bit	4-Bit	6-Bit	8-Bit	BF16
27B	15 GB	18 GB	24 GB	30 GB	55 GB
35B-A3B	17 GB	23 GB	30 GB	38 GB	70 GB

{% hint style="success" %} Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + System-RAM) größer ist als die Größe der quantisierten Modelldatei, die du herunterlädst. Wenn nicht, kann llama.cpp immer noch über SSD/HDD-Offloading laufen, aber die Inferenz wird langsamer sein. {% endhint %} {% hint style="warning" %} Verwenden Sie NICHT CUDA 13.2, da Sie sonst Kauderwelsch-Ausgaben erhalten können. Verwenden Sie CUDA unter 13.2 oder CUDA 13.3. {% endhint %} **Zum Trainieren von Qwen3.6 können Sie sich an unserem vorherigen** [**Qwen3.5-Fine-Tuning-Leitfaden**](/docs/de/modelle/qwen3.5/fine-tune.md)**.** ### Empfohlene Einstellungen * **Maximales Kontextfenster:** `262,144` (kann über YaRN auf 1M erweitert werden) * `presence_penalty = 0.0 bis 2.0` standardmäßig ist dies deaktiviert, aber um Wiederholungen zu reduzieren, können Sie dies verwenden; ein höherer Wert kann jedoch zu **einem leichten Leistungsabfall** * **Ausreichende Ausgabelänge**: `32,768` Tokens für die meisten Anfragen {% hint style="info" %} Wenn Sie Kauderwelsch erhalten, ist Ihre Kontextlänge möglicherweise zu niedrig eingestellt. Oder versuchen Sie `--cache-type-k bf16 --cache-type-v bf16` das helfen könnte. {% endhint %} Da Qwen3.6 hybrides Reasoning ist, haben Thinking- und Non-Thinking-Modus unterschiedliche Einstellungen: #### Thinking-Modus: {% hint style="success" %} Qwen3.6 hat jetzt [Thinking beibehalten](#turn-on-off-thinking--preserve-thinking). {% endhint %} | Allgemeine Aufgaben | Präzise Codierungsaufgaben (z. B. WebDev) | | -------------------------------------- | ----------------------------------------- | | temperature = 1.0 | temperature = 0.6 | | top\_p = 0.95 | top\_p = 0.95 | | top\_k = 20 | top\_k = 20 | | min\_p = 0.0 | min\_p = 0.0 | | presence\_penalty = 0.0 | presence\_penalty = 0.0 | | repeat\_penalty = deaktiviert oder 1.0 | repeat\_penalty = deaktiviert oder 1.0 | {% columns %} {% column %} Thinking-Modus für allgemeine Aufgaben: {% code overflow="wrap" %} ```bash temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0 ``` {% endcode %} {% endcolumn %} {% column %} Thinking-Modus für präzise Codierungsaufgaben: {% code overflow="wrap" %} ```bash temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0 ``` {% endcode %} {% endcolumn %} {% endcolumns %} #### Instruct-(Non-Thinking-)Modus-Einstellungen: | Allgemeine Aufgaben | | -------------------------------------- | | temperature = 0.7 | | top\_p = 0.8 | | top\_k = 20 | | min\_p = 0.0 | | presence\_penalty = 1.5 | | repeat\_penalty = deaktiviert oder 1.0 | {% hint style="warning" %} Um [Thinking/Reasoning zu deaktivieren](#how-to-enable-or-disable-reasoning-and-thinking), verwenden Sie `--chat-template-kwargs '{"enable_thinking":false}'` Wenn Sie auf **Windows** Powershell sind, verwenden Sie: `--chat-template-kwargs "{\"enable_thinking\":false}"` Verwenden Sie 'true' und 'false' austauschbar. {% endhint %} Instruct-(Non-Thinking-)Modus für allgemeine Aufgaben: {% code overflow="wrap" %} ```bash temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0 ``` {% endcode %} ## Qwen3.6 Inferenz-Tutorials: Wir verwenden Dynamic 4-Bit `UD-Q4_K_XL` GGUF-Varianten für Inferenz-Workloads. Klicken Sie unten, um zu den Anweisungen für das jeweilige Modell zu gelangen: In Unsloth Studio ausführen In llama.cpp ausführen MTP-Leitfaden NVFP4-Leitfaden {% hint style="warning" %} Verwenden Sie NICHT CUDA 13.2, da Sie sonst Kauderwelsch-Ausgaben erhalten können. Verwenden Sie CUDA unter 13.2 oder CUDA 13.3. {% endhint %} ### 🦥 Unsloth-Studio-Leitfaden Qwen3.6 und Qwen3.6 MTP können jetzt in [Unsloth Studio](/docs/de/neu/studio.md), unserer neuen Open-Source-Web-UI für lokale KI, ausgeführt werden. Mit Unsloth Studio kannst du Modelle lokal auf **MacOS, Windows**, Linux und: {% columns %} {% column %} * Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle * [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche** * [**Codeausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash) * [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parametertuning (Temp, Top-P usw.) * Schnelle CPU- + GPU-Inferenz über llama.cpp * [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70 % weniger VRAM {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% stepper %} {% step %} #### Unsloth installieren In deinem Terminal ausführen: **MacOS, Linux, WSL:** ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` **Windows PowerShell:** ```bash irm https://unsloth.ai/install.ps1 | iex ``` {% hint style="success" %} **Die Installation wird schnell sein und ca. 20 Sek. bis 1 Min. dauern.** {% endhint %} {% endstep %} {% step %} #### Unsloth starten **MacOS, Linux, WSL und Windows:** ```bash unsloth studio -H 0.0.0.0 -p 8888 ```

Dann öffne `http://127.0.0.1:8888` (oder Ihre spezifische URL) in Ihrem Browser. {% endstep %} {% step %} #### Qwen3.6 oder Qwen3.6 MTP suchen und herunterladen Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zur [Studio Chat](/docs/de/neu/studio/chat.md) Registerkarte und suchen Sie in der Suchleiste nach Qwen3.6 oder Qwen3.6 MTP und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quant herunter.

{% endstep %} {% step %} #### Qwen3.6 ausführen Die Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, du kannst sie jedoch weiterhin manuell ändern. Du kannst auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten. Weitere Informationen findest du in unserem [Unsloth-Studio-Inferenzleitfaden](/docs/de/neu/studio/chat.md). Unten führte die 2-Bit-Qwen3.6-GGUF mehr als 30 Tool-Aufrufe aus, suchte 20 Websites und führte Python-Code aus: {% embed url="" %} {% endstep %} {% endstepper %} ### ⚡ MTP-Leitfaden MTP (Multi-Token-Vorhersage) Speculative Decoding ermöglicht Modellen wie Qwen3.6 eine **ca. 1,4-2,2x schnellere Generierung mit ****keiner Genauigkeitsänderung**. Dadurch können Qwen3.6 27B und 35B-A3B eine **>1,4x Beschleunigung** gegenüber der ursprünglichen Basislinie erreichen, was besonders für lokale Modelle nützlich ist. Unsloth Qwen3.6 MTP GGUFs befinden sich nicht mehr im experimentellen Modus, und llama.cpp hat die MTP-Unterstützung zusammengeführt. Direkt ausführen in [Unsloth Studios UI](#unsloth-studio-guide) oder über llama.cpp. **Qwen3.6 27B MTP läuft jetzt bei 160 Tokens/s Generierung und Qwen3.6 35B-A3B bei 240 Tokens/s auf einer RTX 6000 GPU.** Siehe [#mtp-benchmarks](#mtp-benchmarks "mention"). Unsloth Studio setzt automatisch die idealen MTP-Einstellungen, optimiert für Ihre spezifische Hardware (Mac, CPU, GPU usw.) - Sie können sie später weiterhin ändern. {% hint style="info" %} **MTP verwendet etwas mehr VRAM als standardmäßige GGUFs**, also planen Sie etwa 1 GB zusätzlichen RAM/VRAM-Spielraum ein. {% endhint %} In Unsloth Studio ausführen In llama.cpp ausführen NVFP4 ausführen | [Qwen3.6-27B-MTP-GGUF](https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF) | [Qwen3.6-35B-A3B-MTP-GGUF](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF) | | --------------------------------------------------------------------------- | ----------------------------------------------------------------------------------- |

In der Praxis sagt MTP mehrere zukünftige Tokens voraus, und dann verifiziert das Hauptmodell diese Tokens parallel. Dadurch verringert sich die Anzahl der während der Generierung benötigten Forward-Pässe und die Ausgabe wird schneller. **Wir haben festgestellt, dass `--spec-draft-n-max 2` in den meisten Setups am besten funktioniert.** **Gehen Sie jedoch nicht davon aus, dass `2` optimal ist, da die Leistung von der Hardware abhängt. Probieren Sie Werte von `1` bis `6` aus und verwenden Sie denjenigen, der für Ihr System am schnellsten ist.** Wir haben auch [MTP GGUFs hochgeladen](https://huggingface.co/unsloth/models?search=mtp) für die [**Qwen3.5**](/docs/de/modelle/qwen3.5.md) **Modellfamilie** einschließlich: 0.8B, 2B, 4B, 9B, 27B, 35B-A3B, 122B-A10B und 397B-A17B. Llama.cpp verbessert die MTP-Leistung fortlaufend, also erwarten Sie, dass sie mit der Zeit schneller wird! **Tabelle: Hardwareanforderungen für MTP** (Einheiten = Gesamtspeicher: RAM + VRAM oder gemeinsamer Speicher)

Qwen3.6	3-Bit	4-Bit	6-Bit	8-Bit	BF16
27B	16 GB	19 GB	25 GB	31 GB	56 GB
35B-A3B	18 GB	24 GB	31 GB	39 GB	71 GB

#### 🦥 Unsloth-Studio-MTP-Leitfaden Unsloth Studio setzt automatisch die idealen MTP-Einstellungen, optimiert für Ihre spezifische Hardware (Mac, CPU, GPU usw.) - Sie können sie später weiterhin ändern. {% stepper %} {% step %} #### Unsloth installieren In deinem Terminal ausführen: **MacOS, Linux, WSL:** ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` **Windows PowerShell:** ```bash irm https://unsloth.ai/install.ps1 | iex ``` {% endstep %} {% step %} #### Unsloth starten **MacOS, Linux, WSL und Windows:** ```bash unsloth studio -H 127.0.0.1 -p 8888 ``` Dann öffne `http://127.0.0.1:8888` (oder Ihre spezifische URL) in Ihrem Browser. {% endstep %} {% step %} #### Qwen3.6 MTP suchen und herunterladen Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zur [Studio Chat](/docs/de/neu/studio/chat.md) Registerkarte und suchen Sie in der Suchleiste nach Qwen3.6 MTP und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quant herunter.

{% endstep %} {% step %} #### Qwen3.6 MTP ausführen Die Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, du kannst sie jedoch weiterhin manuell ändern. Du kannst auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten. Weitere Informationen findest du in unserem [Unsloth-Studio-Inferenzleitfaden](/docs/de/neu/studio/chat.md). Unten führte die 2-Bit-Qwen3.6 MTP GGUF mehr als 10 Tool-Aufrufe aus, suchte 10 Websites und führte Python-Code aus:

{% endstep %} {% endstepper %} #### 🦙 Llama.cpp-Leitfaden {% stepper %} {% step %} Installieren Sie die neueste Version von `llama.cpp` auf [**hier auf GitHub**](https://github.com/ggml-org/llama.cpp/pull/22673). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert. ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endstep %} {% step %} Wenn du `llama.cpp` direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:`Q4_K_XL`) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwende `export LLAMA_CACHE="folder"` um `llama.cpp` um an einem bestimmten Speicherort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K. Folgen Sie einem der Befehle für die spezifischen Modelle: 27B MTP 35-A3B MTP #### MTP Qwen3.6-27B: **Thinking-Modus:** {% hint style="info" %} Bitte sehen Sie sich Qwen3.6s neues [Bewahrtes Denken](#thinking-enable-disable--preserve-thinking). {% endhint %} Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-27B-MTP-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q4_K_XL \ --temp 1.0 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.00 \ --spec-type draft-mtp --spec-draft-n-max 2 ``` Für präzise Codierungsaufgaben ändern Sie: `temperature=0.6` **Non-Thinking-Modus:** Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-27B-MTP-GGUF" ./llama.cpp/llama-server \ -hf unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q4_K_XL \ --temp 0.7 \ --top-p 0.8 \ --top-k 20 \ --presence-penalty 1.5 \ --min-p 0.00 \ --spec-type draft-mtp --spec-draft-n-max 2 \ --chat-template-kwargs '{"enable_thinking":false}' ``` #### MTP Qwen3.6-35B-A3B: **Thinking-Modus:** {% hint style="info" %} Bitte sehen Sie sich Qwen3.6s neues [Bewahrtes Denken](#thinking-enable-disable--preserve-thinking). {% endhint %} Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \ --temp 1.0 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.00 \ --spec-type draft-mtp --spec-draft-n-max 2 ``` Für präzise Codierungsaufgaben ändern Sie: `temperature=0.6` **Non-Thinking-Modus:** Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF" ./llama.cpp/llama-server \ -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \ --temp 0.7 \ --top-p 0.8 \ --top-k 20 \ --presence-penalty 1.5 \ --min-p 0.00 \ --spec-type draft-mtp --spec-draft-n-max 2 \ --chat-template-kwargs '{"enable_thinking":false}' ``` {% endstep %} {% step %} Sie können das Modell auch manuell über den untenstehenden Code herunterladen (nach der Installation von `pip install huggingface_hub`). Sie können Q4\_K\_M oder andere quantisierte Versionen wählen wie `UD-Q4_K_XL` . Wir empfehlen, mindestens eine dynamische 2-Bit-Quantisierung zu verwenden `UD-Q2_K_XL` um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md) ```bash hf download unsloth/Qwen3.6-35B-A3B-MTP-GGUF \ --local-dir unsloth/Qwen3.6-35B-A3B-MTP-GGUF \ --include "*mmproj-F16*" \ --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für dynamisches 2-Bit ``` {% endstep %} {% step %} Dann führen Sie das Modell im Konversationsmodus aus: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-cli \ --model unsloth/Qwen3.6-35B-A3B-MTP-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \ --mmproj unsloth/Qwen3.6-35B-A3B-MTP-GGUF/mmproj-F16.gguf \ --temp 1.0 \ --top-p 0.95 \ --min-p 0.00 \ --top-k 20 \ --spec-type draft-mtp --spec-draft-n-max 2 ``` {% endcode %} {% endstep %} {% endstepper %} ### 🦙 Llama.cpp-Leitfaden Für diesen Leitfaden verwenden wir Dynamic 4-Bit, was auf einem 24GB-RAM-/Mac-Gerät für schnelle Inferenz auf [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp). Da das Modell bei voller F16-Präzision nur etwa 72 GB groß ist, müssen wir uns um die Leistung nicht allzu viele Sorgen machen. [Sehen Sie sich unsere GGUF-Sammlung an](https://huggingface.co/collections/unsloth/qwen36). 27B 35-A3B {% stepper %} {% step %} Erhalte das neueste `llama.cpp` **auf** [**hier auf GitHub**](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert. ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endstep %} {% step %} Wenn du `llama.cpp` direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:`Q4_K_XL`) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwende `export LLAMA_CACHE="folder"` um `llama.cpp` um an einem bestimmten Speicherort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K. Folgen Sie einem der Befehle für die spezifischen Modelle: 27B 35-A3B #### Qwen3.6-27B: **Thinking-Modus:** {% hint style="info" %} Bitte sehen Sie sich Qwen3.6s neues [Bewahrtes Denken](#thinking-enable-disable--preserve-thinking). {% endhint %} Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-27B-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \ --temp 1.0 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.00 ``` Für präzise Codierungsaufgaben ändern Sie: `temperature=0.6` **Non-Thinking-Modus:** Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-27B-GGUF" ./llama.cpp/llama-server \ -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \ --temp 0.7 \ --top-p 0.8 \ --top-k 20 \ --presence-penalty 1.5 \ --min-p 0.00 \ --chat-template-kwargs '{"enable_thinking":false}' ``` #### Qwen3.6-35B-A3B: **Thinking-Modus:** {% hint style="info" %} Bitte sehen Sie sich Qwen3.6s neues [Bewahrtes Denken](#thinking-enable-disable--preserve-thinking). {% endhint %} Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL \ --temp 1.0 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.00 ``` Für präzise Codierungsaufgaben ändern Sie: `temperature=0.6` **Non-Thinking-Modus:** Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF" ./llama.cpp/llama-server \ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL \ --temp 0.7 \ --top-p 0.8 \ --top-k 20 \ --presence-penalty 1.5 \ --min-p 0.00 \ --chat-template-kwargs '{"enable_thinking":false}' ``` {% endstep %} {% step %} Sie können das Modell auch manuell über den untenstehenden Code herunterladen (nach der Installation von `pip install huggingface_hub`). Sie können Q4\_K\_M oder andere quantisierte Versionen wählen wie `UD-Q4_K_XL` . Wir empfehlen, mindestens eine dynamische 2-Bit-Quantisierung zu verwenden `UD-Q2_K_XL` um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md) ```bash hf download unsloth/Qwen3.6-35B-A3B-GGUF \ --local-dir unsloth/Qwen3.6-35B-A3B-GGUF \ --include "*mmproj-F16*" \ --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für dynamisches 2-Bit ``` {% endstep %} {% step %} Dann führen Sie das Modell im Konversationsmodus aus: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-cli \ --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \ --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \ --temp 1.0 \ --top-p 0.95 \ --min-p 0.00 \ --top-k 20 ``` {% endcode %} {% endstep %} {% endstepper %} #### Llama-Server- und OpenAI-Vervollständigungsbibliothek Um Qwen3.6 für den produktiven Einsatz bereitzustellen, verwenden wir `llama-server` Öffne in einem neuen Terminal, zum Beispiel via tmux, und stelle das Modell bereit mit: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-server \ --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \ --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \ --alias "unsloth/Qwen3.6-35B-A3B" \ --temp 0.6 \ --top-p 0.95 \ --ctx-size 16384 \ --top-k 20 \ --min-p 0.00 \ --port 8001 ``` {% endcode %} Dann in einem neuen Terminal, nachdem du `pip install openai`ausgeführt hast: {% code overflow="wrap" %} ```python from openai import OpenAI import json openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/Qwen3.6-35B-A3B", messages = [{"role": "user", "content": "Erstelle ein Snake-Spiel."},], ) print(completion.choices[0].message.content) ``` {% endcode %} ### 🍎 MLX Dynamic Quants Wir haben außerdem dynamische Qwen3.6 4bit- und 8bit-Quants für MacOS-Geräte hochgeladen! Unser MLX-Quantisierungsalgorithmus entwickelt sich noch weiter, und wir verfeinern ihn aktiv überall dort, wo Verbesserungen möglich sind. Sie können alle MLX-Modelle in [Unsloth Studio](#unsloth-studio-guide)! **Qwen3.6-27B MLX:** | [3-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-3bit) | [4-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-4bit) | [MXFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-MXFP4) | [NVFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4) | [6-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-6bit) | [8-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-MLX-8bit) | | --------------------------------------------------------------- | --------------------------------------------------------------- | ---------------------------------------------------------------- | ---------------------------------------------------------------- | --------------------------------------------------------------- | ------------------------------------------------------------ | **Qwen3.6-35B-A3B MLX:** | [3-Bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-UD-MLX-3bit) | [4-Bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-UD-MLX-4bit) | [8-Bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MLX-8bit) | | ------------------------------------------------------------------- | ------------------------------------------------------------------- | ---------------------------------------------------------------- | Um sie auszuprobieren, verwenden Sie: {% code overflow="wrap" %} ```bash curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_qwen3_6_mlx.sh | sh source ~/.unsloth/unsloth_qwen3_6_mlx/bin/activate python -m mlx_vlm.chat --model unsloth/Qwen3.6-27B-UD-MLX-4bit ``` {% endcode %} Siehe unten die Qwen3.6-27B KL-Divergenz-(KLD)- und Perplexity-(PPL)-Werte (niedriger ist besser): | Modell | Mittleres KLD | Median-KLD | PPL | P90-KLD | P99,9-KLD | Größe | | ---------------------------------------------------------------- | ------------- | ---------- | ----- | ------- | --------- | ------- | | [8-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-MLX-8bit) | 0.0028 | 0.0003 | 4.812 | 0.0019 | 0.192 | 34.7 GB | | [6-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-6bit) | 0.0037 | 0.0007 | 4.809 | 0.0032 | 0.343 | 30.5 GB | | [4-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-4bit) | 0.0227 | 0.0053 | 4.821 | 0.0293 | 2.339 | 26.2 GB | | [NVFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4) | 0.0325 | 0.0087 | 4.843 | 0.0466 | 3.693 | 26.2 GB | | [MXFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-MXFP4) | 0.0479 | 0.0153 | 4.902 | 0.0769 | 4.035 | 25.6 GB | | [3-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-3bit) | 0.0734 | 0.0223 | 4.976 | 0.1261 | 5.529 | 24.1 GB | ### ⚡️NVFP4 Sie können unsere NVFP4-Quants jetzt mit MTP-Tensoren ausführen, die direkt in den NVFP4-Quant integriert sind. Sowohl [vLLM](/docs/de/grundlagen/inference-and-deployment/vllm-guide.md) und [SGLang](/docs/de/grundlagen/inference-and-deployment/sglang-guide.md) funktionieren dafür. Wir haben `vllm==0.22.0` und `sglang==0.5.9` (möglicherweise müssen Sie SGLang main verwenden). * Qwen3.6-35B-A3B NVFP4: [huggingface.co/unsloth/Qwen3.6-35B-A3B-NVFP4](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-NVFP4) * Qwen3.6-27B NVFP4: [huggingface.co/unsloth/Qwen3.6-27B-NVFP4](https://huggingface.co/unsloth/Qwen3.6-27B-NVFP4) #### **vLLM:** ```shell vllm serve unsloth/Qwen3.6-35B-A3B-NVFP4 --trust-remote-code --dtype bfloat16 --moe-backend marlin \ --speculative-config '{"method":"mtp","num_speculative_tokens":3,"moe_backend":"triton"}' ``` #### **SGLang:** ```bash python -m sglang.launch_server --model-path unsloth/Qwen3.6-27B-NVFP4 --speculative-algo NEXTN \ --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4 ``` ### 💡 Thinking: Aktivieren/Deaktivieren + Thinking beibehalten Qwen3.6 hat außerdem **Thinking beibehalten** was die Thinking-Trace aus der vorherigen Unterhaltung beibehält. Dadurch verwenden Sie mehr Tokens, aber in fortgesetzten Unterhaltungen könnte die Genauigkeit steigen. Unsloth Studio hat für Qwen3.6 die Umschalter 'Think' und 'Preserved Thinking':

Unsloth Studio hat standardmäßig den Think-Umschalter und einen neuen Bewahrtes Denken Umschalter

Zum Aktivieren **Thinking beibehalten** in llama.cpp verwenden Sie (ändern Sie zu 'true' oder 'false') '`preserve_thinking`' statt '`enable_thinking`' oder '`disable_thinking`'. {% code expandable="true" %} ```bash --chat-template-kwargs '{"preserve_thinking":true}' ``` {% endcode %} Für normales Thinking können Sie Thinking in llama.cpp aktivieren / deaktivieren, indem Sie die folgenden Befehle verwenden. Verwenden Sie '`true`' und '`false`' austauschbar.

Betriebssystem für llama-server: Thinking aktivieren Thinking deaktivieren

Linux, MacOS, WSL:

Betriebssystem für llama-server:	Thinking aktivieren	Thinking deaktivieren
Linux, MacOS, WSL:	`--chat-template-kwargs '{"enable_thinking":true}'`	`--chat-template-kwargs '{"enable_thinking":false}'`
Windows / Powershell:	`--chat-template-kwargs "{\"enable_thinking\":true}"`	`--chat-template-kwargs "{\"enable_thinking\":false}"`

--chat-template-kwargs '{"enable_thinking":true}'

--chat-template-kwargs '{"enable_thinking":false}'

Windows / Powershell:

--chat-template-kwargs "{\"enable_thinking\":true}"

--chat-template-kwargs "{\"enable_thinking\":false}"

Als Beispiel für Qwen3.6-35B-A3B zum Aktivieren von Thinking beibehalten (standardmäßig aktiviert): ```bash ./llama.cpp/llama-server \ --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-BF16.gguf \ --alias "unsloth/Qwen3.6-35B-A3B-GGUF" \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.00 \ --port 8001 \ --chat-template-kwargs '{"preserve_thinking":true}' ``` Und dann in Python: ```python from openai import OpenAI import json openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/Qwen3.6-35B-A3B-GGUF", messages = [{"role": "user", "content": "Was ist 2+2?"},], ) print(completion.choices[0].message.content) print(completion.choices[0].message.reasoning_content) ``` ### 👨‍💻 OpenAI Codex & Claude Code Um das Modell für lokale agentische Coding-Workloads auszuführen, können Sie [unserem Leitfaden folgen](#claude-codex). Verwenden Sie das `llama-server` wir gerade eben eingerichtet haben, und setzen Sie den Modellnamen auf die genaue ID, die es meldet unter `GET /v1/models` (der `--alias` Wert oben, z. B. `unsloth/Qwen3.6-35B-A3B-GGUF`). Befolgen Sie die korrekten Parameter und Gebrauchsanweisungen für Qwen3.6. {% columns %} {% column %} {% content-ref url="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b" %} [Claude Code](/docs/de/grundlagen/claude-code.md) {% endcontent-ref %} {% endcolumn %} {% column %} {% content-ref url="/pages/1813c928d883d651dff92062bc0da6e96d06e50a" %} [OpenAI Codex](/docs/de/grundlagen/codex.md) {% endcontent-ref %} {% endcolumn %} {% endcolumns %} Nachdem Sie zum Beispiel die Anweisungen für Claude Code befolgt haben, werden Sie sehen:

Dann können wir zum Beispiel fragen `Erstelle ein Python-Spiel für Schach` :

## 📊 Benchmarks ### Unsloth GGUF-Benchmarks Wir haben Mean-KL-Divergenz-Benchmarks für Qwen3.6-35-A3B-GGUFs über verschiedene Anbieter hinweg durchgeführt, um Ihnen bei der Auswahl der besten Quantisierung zu helfen. * Die KL-Divergenz bringt nahezu alle Unsloth-GGUFs an die SOTA-Pareto-Frontier * KLD zeigt, wie gut ein quantisiertes Modell zur ursprünglichen BF16-Ausgabeverteilung passt, und weist damit auf die erhaltene Genauigkeit hin. * Damit ist Unsloth in 21 von 22 Größen der leistungsstärkste * Nur Q6\_K wurde für mehr dynamische Schichten aktualisiert, und wir haben eine neue eingeführt `UD-IQ4_NL_XL` Quant

35B-A3B - KLD-Benchmarks (niedriger ist besser)

### MTP-Benchmarks Wir haben die neuen Quants, die wir für 27B und 35B MoE erstellt haben, gebenchmarkt. Im Allgemeinen werden dichte Modelle mit MTP viel stärker beschleunigt (1,4–2x) als MoE-Modelle (1,15–1,25x). Damit kann Qwen3.6 27B jetzt mit UD-Q2\_K\_XL 140 Token/s generieren und Qwen3.6 35B-A3B 220 Token/s generieren! Einige der Durchsatzwerte sind verrauscht, also schließen Sie nicht daraus, dass einige Quants langsamer sind als andere.

Beim durchschnittlichen Speedup sehen wir bei dichten Modellen mit Draft-Tokens = 2 einen 1,4-fachen Wert und bei MoE etwa 1,15- bis 1,2-fach.

Wir empfehlen nicht mehr als 2 Draft-Tokens, da die Akzeptanzrate mit 4 Draft-Tokens drastisch von 83 % auf 50 % sinkt und die Forward-Passes für MTP weniger vorteilhaft werden.

### Offizielle Qwen-Benchmarks #### Qwen3.6-27B

#### Qwen3.6-35B-A3B

--- # Agent Instructions This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com. ## Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter: ``` GET https://unsloth.ai/docs/de/modelle/qwen3.6.md?ask=&goal= ``` `ask` is the immediate question: it should be specific, self-contained, and written in natural language. `goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.