# Qwen3.6 - Wie man lokal ausführt Qwen3.6 ist Alibabas neue Familie multimodaler Hybrid-Denkmodelle, darunter: **Qwen3.6-27B** und **35B-A3B**. Es liefert Spitzenleistung für seine Größe und unterstützt 256K Kontext in 201 Sprachen. Es glänzt bei agentischem Coden, Vision- und Chat-Aufgaben. Qwen3.6-27B läuft auf **18 GB RAM** Setups und 35B-A3B läuft auf **22 GB**. Sie können die Modelle jetzt in [Unsloth Studio](#unsloth-studio-guide). {% hint style="success" %} **NEU:** [**Qwen3.6 MTP ist da**](#mtp-guide)**! MTP ermöglicht 1,4- bis 2-fach schnellere Inferenz ohne Genauigkeitsverlust** Wir haben [Qwen3.6 GGUF-Benchmarks](#unsloth-gguf-benchmarks) durchgeführt, um Ihnen bei der Auswahl des besten Quants zu helfen. {% endhint %} Qwen3.6-Tutorials ausführen MTP-Leitfaden {% columns %} {% column %} Qwen3.6-GGUFs verwenden Unsloth [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) für SOTA-Quant-Performance – die Quants werden also auf realen Anwendungsfall-Datensätzen kalibriert und wichtige Schichten werden hochskaliert. *Vielen Dank an Qwen für den Zugriff am ersten Tag.* * **Unterstützung für die Entwicklerrolle** für Codex, OpenCode und mehr:\ Unsere Uploads unterstützen jetzt die `Entwicklerrolle` für agentische Coden-Tools. * **Tool-Aufruf:** Wie [Qwen3.5](/docs/de/modelle/qwen3.5.md), haben wir das Parsen verschachtelter Objekte verbessert, damit Tool-Aufrufe häufiger erfolgreich sind. {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} ### :gear: Verwendungsleitfaden **Tabelle: Hardwareanforderungen für die Inferenz** (Einheiten = gesamter Speicher: RAM + VRAM oder gemeinsamer Speicher)

Qwen3.6	3-Bit	4-Bit	6-Bit	8-Bit	BF16
27B	15 GB	18 GB	24 GB	30 GB	55 GB
35B-A3B	17 GB	23 GB	30 GB	38 GB	70 GB

{% hint style="success" %} Für beste Leistung stellen Sie sicher, dass Ihr insgesamt verfügbarer Speicher (VRAM + Systemspeicher) die Größe der heruntergeladenen quantisierten Modelldatei übersteigt. Wenn nicht, kann llama.cpp weiterhin per SSD/HDD-Offloading ausgeführt werden, die Inferenz wird jedoch langsamer sein. {% endhint %} {% hint style="warning" %} Verwenden Sie CUDA 13.2 NICHT, da sonst möglicherweise Kauderwelsch-Ausgaben entstehen. NVIDIA arbeitet an einer Lösung. {% endhint %} **Zum Trainieren von Qwen3.6 können Sie auf unseren früheren** [**Qwen3.5-Fine-Tuning-Leitfaden**](/docs/de/modelle/qwen3.5/fine-tune.md)**.** ### Empfohlene Einstellungen * **Maximales Kontextfenster:** `262,144` (kann über YaRN auf 1M erweitert werden) * `presence_penalty = 0,0 bis 2,0` standardmäßig ist dies deaktiviert, aber um Wiederholungen zu reduzieren, können Sie dies verwenden; ein höherer Wert kann jedoch zu **einer leichten Leistungsabnahme führen** * **Ausreichende Ausgabelänge**: `32,768` Tokens für die meisten Abfragen {% hint style="info" %} Wenn Sie Kauderwelsch erhalten, ist Ihre Kontextlänge möglicherweise zu niedrig eingestellt. Oder versuchen Sie `--cache-type-k bf16 --cache-type-v bf16` das helfen könnte. {% endhint %} Da Qwen3.6 hybrides Reasoning verwendet, haben Denk- und Nicht-Denk-Modus unterschiedliche Einstellungen: #### Denkmodus: {% hint style="success" %} Qwen3.6 hat jetzt [Denken beibehalten](#turn-on-off-thinking--preserve-thinking). {% endhint %} | Allgemeine Aufgaben | Präzise Coden-Aufgaben (z. B. WebDev) | | -------------------------------------- | -------------------------------------- | | temperature = 1,0 | temperature = 0,6 | | top\_p = 0,95 | top\_p = 0,95 | | top\_k = 20 | top\_k = 20 | | min\_p = 0,0 | min\_p = 0,0 | | presence\_penalty = 1,5 | presence\_penalty = 0,0 | | repeat\_penalty = deaktiviert oder 1,0 | repeat\_penalty = deaktiviert oder 1,0 | {% columns %} {% column %} Denkmodus für allgemeine Aufgaben: {% code overflow="wrap" %} ```bash temperature=1,0, top_p=0,95, top_k=20, min_p=0,0, presence_penalty=1,5, repetition_penalty=1,0 ``` {% endcode %} {% endcolumn %} {% column %} Denkmodus für präzise Coden-Aufgaben: {% code overflow="wrap" %} ```bash temperature=0,6, top_p=0,95, top_k=20, min_p=0,0, presence_penalty=0,0, repetition_penalty=1,0 ``` {% endcode %} {% endcolumn %} {% endcolumns %} #### Einstellungen für den Instruct-Modus (Nicht-Denkmodus): | Allgemeine Aufgaben | Reasoning-Aufgaben | | -------------------------------------- | -------------------------------------- | | temperature = 0,7 | temperature = 1,0 | | top\_p = 0,8 | top\_p = 0,95 | | top\_k = 20 | top\_k = 20 | | min\_p = 0,0 | min\_p = 0,0 | | presence\_penalty = 1,5 | presence\_penalty = 1,5 | | repeat\_penalty = deaktiviert oder 1,0 | repeat\_penalty = deaktiviert oder 1,0 | {% hint style="warning" %} Zum [Deaktivieren von Denken / Reasoning](#how-to-enable-or-disable-reasoning-and-thinking), verwenden Sie `--chat-template-kwargs '{"enable_thinking":false}'` Wenn Sie **Windows** PowerShell `verwenden, nutzen Sie:` Verwenden Sie 'true' und 'false' austauschbar. {% endhint %} {% columns %} {% column %} Instruct (Nicht-Denkmodus) für allgemeine Aufgaben: {% code overflow="wrap" %} ```bash temperature=0,7, top_p=0,8, top_k=20, min_p=0,0, presence_penalty=1,5, repetition_penalty=1,0 ``` {% endcode %} {% endcolumn %} {% column %} Instruct (Nicht-Denkmodus) für Reasoning-Aufgaben: {% code overflow="wrap" %} ```bash temperature=1,0, top_p=0,95, top_k=20, min_p=0,0, presence_penalty=1,5, repetition_penalty=1,0 ``` {% endcode %} {% endcolumn %} {% endcolumns %} ## Qwen3.6-Inferenz-Tutorials: Wir werden Dynamic 4-Bit verwenden `UD_Q4_K_XL` GGUF-Varianten für Inferenz-Workloads. Klicken Sie unten, um zu den Anweisungen für das jeweilige Modell zu gelangen: {% hint style="warning" %} Verwenden Sie CUDA 13.2 NICHT, da sonst möglicherweise Kauderwelsch-Ausgaben entstehen. NVIDIA arbeitet an einer Lösung. {% endhint %} MTP-Leitfaden In Unsloth Studio ausführen In llama.cpp ausführen {% hint style="info" %} `presence_penalty = 0,0 bis 2,0` standardmäßig ist dies deaktiviert, aber um Wiederholungen zu reduzieren, können Sie dies verwenden; ein höherer Wert kann jedoch zu **leichter Leistungsabfall.** Derzeit funktioniert kein Qwen3.6-GGUF in Ollama aufgrund separater mmproj-Vision-Dateien. Verwenden Sie llama.cpp-kompatible Backends. {% endhint %} ### ⚡ MTP-Leitfaden MTP (Multi Token Prediction) speculative decoding ermöglicht Modellen wie Qwen3.6 **eine \~1,4- bis 2-fach schnellere Generierung mit ****keiner Änderung der Genauigkeit**. Dadurch können Qwen3.6 27B und 35B-A3B **eine >1,4-fache Beschleunigung** gegenüber der ursprünglichen Baseline erreichen, was besonders für lokale Modelle nützlich ist. **Qwen3.6 27B kann jetzt 140 Token/s generieren, und Qwen3.6 35B-A3B 220 Token/s!** Siehe [#mtp-benchmarks](#mtp-benchmarks "mention") für weitere Details | [Qwen3.6-27B-MTP-GGUF](https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF) | [Qwen3.6-35B-A3B-MTP-GGUF](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF) | | --------------------------------------------------------------------------- | ----------------------------------------------------------------------------------- |

In der Praxis sagt MTP mehrere zukünftige Tokens voraus, dann verifiziert das Hauptmodell diese Tokens parallel. Dadurch verringert sich die Anzahl der während der Generierung benötigten Vorwärtsdurchläufe und die Ausgabe wird schneller. Wir haben festgestellt `--spec-draft-n-max 2` funktioniert am besten! {% stepper %} {% step %} Installieren Sie die **spezifische** `llama.cpp` PR-Branch auf [**GitHub hier**](https://github.com/ggml-org/llama.cpp/pull/22673). Sie können auch die Build-Anweisungen unten befolgen. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert. ```bash apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone -b mtp-clean https://github.com/am17an/llama.cpp.git cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endstep %} {% step %} Wenn Sie `llama.cpp` direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:`Q4_K_XL`) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwenden Sie `export LLAMA_CACHE="folder"` um zu erzwingen `llama.cpp` in einem bestimmten Speicherort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K. Befolgen Sie einen der Befehle für die spezifischen Modelle: 27B MTP 35-A3B MTP #### MTP Qwen3.6-27B: **Denkmodus:** {% hint style="info" %} Bitte beachten Sie Qwen3.6s neue [Erhaltenes Denken](#thinking-enable-disable--preserve-thinking). {% endhint %} Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-27B-MTP-GGUF" ./llama.cpp/llama-cli \\ -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \\ --temp 1,0 \\ --top-p 0,95 \\ --top-k 20 \\ --presence-penalty 1,5 \\ --min-p 0,00 \\ --spec-type mtp --spec-draft-n-max 2 ``` Für präzise Coden-Aufgaben ändern Sie: `temperature=0,6, presence-penalty=0,0` **Nicht-Denkmodus:** Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-27B-MTP-GGUF" ./llama.cpp/llama-server \\ -hf unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q4_K_XL \\ --temp 0,7 \\ --top-p 0,8 \\ --top-k 20 \\ --presence-penalty 1,5 \\ --min-p 0,00 \\ --spec-type mtp --spec-draft-n-max 2 \\ --chat-template-kwargs '{"enable_thinking":false}' ``` Für Reasoning-Aufgaben ändern Sie: `temperature=1,0, top-p=0,95` #### MTP Qwen3.6-35B-A3B: **Denkmodus:** {% hint style="info" %} Bitte beachten Sie Qwen3.6s neue [Erhaltenes Denken](#thinking-enable-disable--preserve-thinking). {% endhint %} Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF" ./llama.cpp/llama-cli \\ -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \\ --temp 1,0 \\ --top-p 0,95 \\ --top-k 20 \\ --presence-penalty 1,5 \\ --min-p 0,00 \\ --spec-type mtp --spec-draft-n-max 2 ``` Für präzise Coden-Aufgaben ändern Sie: `temperature=0,6, presence-penalty=0,0` **Nicht-Denkmodus:** Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF" ./llama.cpp/llama-server \\ -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \\ --temp 0,7 \\ --top-p 0,8 \\ --top-k 20 \\ --presence-penalty 1,5 \\ --min-p 0,00 \\ --spec-type mtp --spec-draft-n-max 2 \\ --chat-template-kwargs '{"enable_thinking":false}' ``` Für Reasoning-Aufgaben ändern Sie: `temperature=1,0, top-p=0,95` {% endstep %} {% step %} Laden Sie das Modell über den folgenden Code herunter (nach der Installation von `pip install huggingface_hub hf_transfer`). Sie können Q4\_K\_M oder andere quantisierte Versionen wählen, wie `UD-Q4_K_XL` . Wir empfehlen, mindestens die dynamische 2-Bit-Quantisierung zu verwenden `UD-Q2_K_XL` um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md) ```bash hf download unsloth/Qwen3.6-35B-A3B-MTP-GGUF \\ --local-dir unsloth/Qwen3.6-35B-A3B-MTP-GGUF \\ --include "*mmproj-F16*" \\ --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für Dynamic 2bit ``` {% endstep %} {% step %} Dann führen Sie das Modell im Konversationsmodus aus: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-cli \\ --model unsloth/Qwen3.6-35B-A3B-MTP-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \\ --mmproj unsloth/Qwen3.6-35B-A3B-MTP-GGUF/mmproj-F16.gguf \\ --temp 1,0 \\ --top-p 0,95 \\ --min-p 0,00 \\ --presence-penalty 1,5 \\ --top-k 20 ``` {% endcode %} {% endstep %} {% endstepper %} ### 🦥 Unsloth Studio-Leitfaden Qwen3.6 kann ausgeführt und feinabgestimmt werden in [Unsloth Studio](/docs/de/neu/studio.md), unserer neuen Open-Source-Web-UI für lokale KI. Unsloth Studio ermöglicht es Ihnen, Modelle lokal auszuführen auf **MacOS, Windows**, Linux und: {% columns %} {% column %} * Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle * [**Selbstheilendes** Tool-Aufrufen](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche** * [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash) * [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-P usw.) * Schnelle CPU- + GPU-Inferenz via llama.cpp * [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70 % weniger VRAM {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% stepper %} {% step %} #### Unsloth installieren Führen Sie in Ihrem Terminal aus: **MacOS, Linux, WSL:** ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` **Windows PowerShell:** ```bash irm https://unsloth.ai/install.ps1 | iex ``` {% hint style="success" %} **Die Installation wird schnell sein und dauert ungefähr 20 Sek. bis 1 Min.** {% endhint %} {% endstep %} {% step %} #### Unsloth starten **MacOS, Linux, WSL und Windows:** ```bash unsloth studio -H 0.0.0.0 -p 8888 ```

Dann öffnen Sie `http://127.0.0.1:8888` (oder Ihre spezifische URL) in Ihrem Browser. {% endstep %} {% step %} #### Qwen3.6 suchen und herunterladen Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen. Dann gehen Sie zum [Studio-Chat](/docs/de/neu/studio/chat.md) Tab und suchen Sie in der Suchleiste nach Qwen3.6 und laden Sie das gewünschte Modell und den gewünschten Quant herunter.

{% endstep %} {% step %} #### Qwen3.6 ausführen Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können außerdem die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten. Für weitere Informationen können Sie unseren [Unsloth-Studio-Inferenzleitfaden](/docs/de/neu/studio/chat.md). Unten machte das 2-Bit-Qwen3.6-GGUF 30+ Tool-Aufrufe, suchte 20 Websites und führte Python-Code aus: {% embed url="" %} {% endstep %} {% endstepper %} ### 🦙 Llama.cpp-Leitfäden Für diesen Leitfaden werden wir Dynamic 4-Bit verwenden, das auf einem 24-GB-RAM-/Mac-Gerät für schnelle Inferenz auf [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp)hervorragend funktioniert. Da das Modell bei voller F16-Präzision nur etwa 72 GB groß ist, müssen wir uns um die Leistung nicht allzu viele Sorgen machen. [Siehe unsere GGUF-Sammlung](https://huggingface.co/collections/unsloth/qwen36). 27B 35-A3B {% stepper %} {% step %} Erhalten Sie die neueste `llama.cpp` **auf** [**GitHub hier**](https://github.com/ggml-org/llama.cpp). Sie können auch die Build-Anweisungen unten befolgen. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert. ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \\ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endstep %} {% step %} Wenn Sie `llama.cpp` direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:`Q4_K_XL`) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwenden Sie `export LLAMA_CACHE="folder"` um zu erzwingen `llama.cpp` in einem bestimmten Speicherort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K. Befolgen Sie einen der Befehle für die spezifischen Modelle: 27B 35-A3B #### Qwen3.6-27B: **Denkmodus:** {% hint style="info" %} Bitte beachten Sie Qwen3.6s neue [Erhaltenes Denken](#thinking-enable-disable--preserve-thinking). {% endhint %} Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-27B-GGUF" ./llama.cpp/llama-cli \\ -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \\ --temp 1,0 \\ --top-p 0,95 \\ --top-k 20 \\ --presence-penalty 1,5 \\ --min-p 0,00 ``` Für präzise Coden-Aufgaben ändern Sie: `temperature=0,6, presence-penalty=0,0` **Nicht-Denkmodus:** Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-27B-GGUF" ./llama.cpp/llama-server \\ -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \\ --temp 0,7 \\ --top-p 0,8 \\ --top-k 20 \\ --presence-penalty 1,5 \\ --min-p 0,00 \\ --chat-template-kwargs '{"enable_thinking":false}' ``` Für Reasoning-Aufgaben ändern Sie: `temperature=1,0, top-p=0,95` #### Qwen3.6-35B-A3B: **Denkmodus:** {% hint style="info" %} Bitte beachten Sie Qwen3.6s neue [Erhaltenes Denken](#thinking-enable-disable--preserve-thinking). {% endhint %} Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF" ./llama.cpp/llama-cli \\ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL \\ --temp 1,0 \\ --top-p 0,95 \\ --top-k 20 \\ --presence-penalty 1,5 \\ --min-p 0,00 ``` Für präzise Coden-Aufgaben ändern Sie: `temperature=0,6, presence-penalty=0,0` **Nicht-Denkmodus:** Allgemeine Aufgaben: ```bash export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF" ./llama.cpp/llama-server \\ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL \\ --temp 0,7 \\ --top-p 0,8 \\ --top-k 20 \\ --presence-penalty 1,5 \\ --min-p 0,00 \\ --chat-template-kwargs '{"enable_thinking":false}' ``` Für Reasoning-Aufgaben ändern Sie: `temperature=1,0, top-p=0,95` {% endstep %} {% step %} Laden Sie das Modell über den folgenden Code herunter (nach der Installation von `pip install huggingface_hub hf_transfer`). Sie können Q4\_K\_M oder andere quantisierte Versionen wählen, wie `UD-Q4_K_XL` . Wir empfehlen, mindestens die dynamische 2-Bit-Quantisierung zu verwenden `UD-Q2_K_XL` um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md) ```bash hf download unsloth/Qwen3.6-35B-A3B-GGUF \\ --local-dir unsloth/Qwen3.6-35B-A3B-GGUF \\ --include "*mmproj-F16*" \\ --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für Dynamic 2bit ``` {% endstep %} {% step %} Dann führen Sie das Modell im Konversationsmodus aus: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-cli \\ --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \\ --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \\ --temp 1,0 \\ --top-p 0,95 \\ --min-p 0,00 \\ --presence-penalty 1,5 \\ --top-k 20 ``` {% endcode %} {% endstep %} {% endstepper %} #### Llama-Server- und OpenAI-Completion-Bibliothek Um Qwen3.6 für die Produktion bereitzustellen, verwenden wir `llama-server` In einem neuen Terminal, z. B. über tmux, stellen Sie das Modell bereit mit: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-server \\ --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \\ --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \\ --alias "unsloth/Qwen3.6-35B-A3B" \\ --temp 0,6 \\ --top-p 0,95 \\ --ctx-size 16384 \\ --top-k 20 \\ --min-p 0,00 \\ --port 8001 ``` {% endcode %} Dann in einem neuen Terminal, nachdem Sie `pip install openai`ausgeführt haben, tun Sie: {% code overflow="wrap" %} ```python from openai import OpenAI import json openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/Qwen3.6-35B-A3B", messages = [{"role": "user", "content": "Erstelle ein Snake-Spiel."},], ) print(completion.choices[0].message.content) ``` {% endcode %} ### 🍎 MLX Dynamic Quants Wir haben außerdem dynamische Qwen3.6-4bit- und 8bit-Quants für MacOS-Geräte hochgeladen! Unser MLX-Quantisierungsalgorithmus entwickelt sich noch weiter, und wir verfeinern ihn aktiv überall dort, wo Verbesserungen möglich sind. **Qwen3.6-27B MLX:** | [3-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-3bit) | [4-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-4bit) | [MXFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-MXFP4) | [NVFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4) | [6-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-6bit) | [8-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-MLX-8bit) | | --------------------------------------------------------------- | --------------------------------------------------------------- | ---------------------------------------------------------------- | ---------------------------------------------------------------- | --------------------------------------------------------------- | ------------------------------------------------------------ | **Qwen3.6-35B-A3B MLX:** | [3-Bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-UD-MLX-3bit) | [4-Bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-UD-MLX-4bit) | [8-Bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MLX-8bit) | | ------------------------------------------------------------------- | ------------------------------------------------------------------- | ---------------------------------------------------------------- | Zum Ausprobieren verwenden Sie: {% code overflow="wrap" %} ```bash curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_qwen3_6_mlx.sh | sh source ~/.unsloth/unsloth_qwen3_6_mlx/bin/activate python -m mlx_vlm.chat --model unsloth/Qwen3.6-27B-UD-MLX-4bit ``` {% endcode %} Unten finden Sie die KL-Divergenz-(KLD)- und Perplexity-(PPL)-Werte für Qwen3.6-27B (niedriger ist besser): | Modell | Mittlere KLD | Mediane KLD | PPL | P90 KLD | P99,9 KLD | Größe | | ---------------------------------------------------------------- | ------------ | ----------- | ----- | ------- | --------- | ------- | | [8-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-MLX-8bit) | 0.0028 | 0.0003 | 4.812 | 0.0019 | 0.192 | 34,7 GB | | [6-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-6bit) | 0.0037 | 0.0007 | 4.809 | 0.0032 | 0.343 | 30,5 GB | | [4-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-4bit) | 0.0227 | 0.0053 | 4.821 | 0.0293 | 2.339 | 26,2 GB | | [NVFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4) | 0.0325 | 0.0087 | 4.843 | 0.0466 | 3.693 | 26,2 GB | | [MXFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-MXFP4) | 0.0479 | 0.0153 | 4.902 | 0.0769 | 4.035 | 25,6 GB | | [3-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-3bit) | 0.0734 | 0.0223 | 4.976 | 0.1261 | 5.529 | 24,1 GB | ### 💡 Denken: Aktivieren/Deaktivieren + Denken beibehalten Qwen3.6 hat auch **Denken beibehalten** das den Denkpfad aus der vorherigen Unterhaltung beibehält. Das erhöht die Anzahl der verwendeten Tokens, kann aber die Genauigkeit in fortgesetzten Unterhaltungen verbessern. Unsloth Studio hat für Qwen3.6 Schalter für 'Think' und 'Preserved Thinking':

Unsloth Studio hat standardmäßig den Think-Schalter und einen neuen Erhaltenes Denken Schalter

Um **Denken beibehalten** in llama.cpp zu aktivieren, verwenden Sie (ändern Sie zu 'true' oder 'false') '`preseve_thinking`' statt '`enable_thinking`' oder '`disable_thinking`'. {% code expandable="true" %} ```bash --chat-template-kwargs '{"preserve_thinking":true}' ``` {% endcode %} Für normales Denken können Sie Thinking in llama.cpp mit den untenstehenden Befehlen aktivieren / deaktivieren. Verwenden Sie '`true`' und '`false`' austauschbar.

llama-server OS:	Denken aktivieren	Denken deaktivieren
Linux, MacOS, WSL:	`--chat-template-kwargs '{"enable_thinking":true}'`	`--chat-template-kwargs '{"enable_thinking":false}'`
Windows / PowerShell:	`--chat-template-kwargs "{\"enable_thinking\":true}"`	`verwenden, nutzen Sie:`

Als Beispiel für Qwen3.6-35B-A3B zum Aktivieren von Denken beibehalten (standardmäßig aktiviert): ```bash ./llama.cpp/llama-server \\ --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-BF16.gguf \\ --alias "unsloth/Qwen3.6-35B-A3B-GGUF" \\ --temp 0,6 \\ --top-p 0,95 \\ --top-k 20 \\ --min-p 0,00 \\ --port 8001 \\ --chat-template-kwargs '{"preserve_thinking":true}' ``` Und dann in Python: ```python from openai import OpenAI import json openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/Qwen3.6-35B-A3B-GGUF", messages = [{"role": "user", "content": "Was ist 2+2?"},], ) print(completion.choices[0].message.content) print(completion.choices[0].message.reasoning_content) ``` ### 👨‍💻 OpenAI Codex & Claude Code Um das Modell für lokale agentische Coding-Workloads auszuführen, können Sie [unserem Leitfaden folgen](/docs/de/grundlagen/claude-code.md). Ändern Sie einfach den Modellnamen in Ihre 'Qwen3.6'-Variante und stellen Sie sicher, dass Sie die korrekten Qwen3.6-Parameter und Nutzungsanweisungen befolgen. Verwenden Sie das `llama-server` wir gerade eben eingerichtet haben. {% columns %} {% column %} {% content-ref url="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b" %} [Claude Code](/docs/de/grundlagen/claude-code.md) {% endcontent-ref %} {% endcolumn %} {% column %} {% content-ref url="/pages/1813c928d883d651dff92062bc0da6e96d06e50a" %} [OpenAI Codex](/docs/de/grundlagen/codex.md) {% endcontent-ref %} {% endcolumn %} {% endcolumns %} Nachdem Sie beispielsweise die Anweisungen für Claude Code befolgt haben, sehen Sie:

Wir können dann fragen, sagen `Erstelle ein Python-Spiel für Schach` :

## 📊 Benchmarks ### Unsloth GGUF-Benchmarks Wir haben Mean-KL-Divergenz-Benchmarks für Qwen3.6-35-A3B-GGUFs über verschiedene Anbieter hinweg durchgeführt, um Ihnen bei der Auswahl des besten Quants zu helfen. * KL-Divergenz bringt fast alle Unsloth-GGUFs auf die SOTA-Pareto-Frontier * KLD zeigt, wie gut ein quantisiertes Modell zur ursprünglichen BF16-Ausgabeverteilung passt, und zeigt damit die erhaltene Genauigkeit an. * Damit ist Unsloth bei 21 von 22 Größen der leistungsstärkste * Nur Q6\_K wurde für mehr Dynamic-Schichten aktualisiert, und wir haben ein neues eingeführt `UD-IQ4_NL_XL` quant

35B-A3B - KLD-Benchmarks (niedriger ist besser)

### MTP-Benchmarks Wir haben die neuen Quants benchmarked, die wir für 27B- und 35B-MoE erstellt haben. Im Allgemeinen werden dichte Modelle mit MTP viel stärker beschleunigt (1,4-2x) als MoE-Modelle (1,15-1,25x). Damit kann Qwen3.6 27B jetzt 140 Token/s mit UD-Q2\_K\_XL generieren und Qwen3.6 35B-A3B 220 Token/s! Einige der Durchsatzwerte sind verrauscht, daher sollten Sie nicht daraus schließen, dass manche Quants langsamer als andere sind.

Beim durchschnittlichen Speedup sehen wir 1,4x für dichte Modelle bei draft tokens = 2 und für das MoE etwa 1,15 bis 1,2x.

Wir empfehlen nicht mehr als 2 Draft-Tokens, da die Akzeptanzrate bei 4 Draft-Tokens abrupt von 83 % auf 50 % fällt und die Vorwärtsdurchläufe für MTP dadurch weniger vorteilhaft werden.

### Offizielle Qwen-Benchmarks #### Qwen3.6-27B

#### Qwen3.6-35B-A3B

--- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/de/modelle/qwen3.6.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.