# Qwen3.6 - Wie man lokal ausführt

Qwen3.6 ist Alibabas neue Familie multimodaler Hybrid-Denkmodelle, darunter: **Qwen3.6-27B** und **35B-A3B**. Es liefert Spitzenleistung für seine Größe und unterstützt 256K Kontext in 201 Sprachen. Es glänzt bei agentischem Coden, Vision- und Chat-Aufgaben. Qwen3.6-27B läuft auf **18 GB RAM** Setups und 35B-A3B läuft auf **22 GB**. Sie können die Modelle jetzt in [Unsloth Studio](#unsloth-studio-guide).

{% hint style="success" %}
**NEU:** [**Qwen3.6 MTP ist da**](#mtp-guide)**! MTP ermöglicht 1,4- bis 2-fach schnellere Inferenz ohne Genauigkeitsverlust**

Wir haben [Qwen3.6 GGUF-Benchmarks](#unsloth-gguf-benchmarks) durchgeführt, um Ihnen bei der Auswahl des besten Quants zu helfen.
{% endhint %}

<a href="/pages/efc00d6b1d286a029d0eec8a5a6a24d50b063840#qwen3.6-inference-tutorials" class="button primary">Qwen3.6-Tutorials ausführen</a><a href="/pages/efc00d6b1d286a029d0eec8a5a6a24d50b063840#mtp-guide" class="button primary">MTP-Leitfaden</a>

{% columns %}
{% column %}
Qwen3.6-GGUFs verwenden Unsloth [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) für SOTA-Quant-Performance – die Quants werden also auf realen Anwendungsfall-Datensätzen kalibriert und wichtige Schichten werden hochskaliert. *Vielen Dank an Qwen für den Zugriff am ersten Tag.*

* **Unterstützung für die Entwicklerrolle** für Codex, OpenCode und mehr:\
  Unsere Uploads unterstützen jetzt die `Entwicklerrolle` für agentische Coden-Tools.
* **Tool-Aufruf:** Wie [Qwen3.5](/docs/de/modelle/qwen3.5.md), haben wir das Parsen verschachtelter Objekte verbessert, damit Tool-Aufrufe häufiger erfolgreich sind.
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/60be6fbac06ea3e689fd70e7f46fb3f791344534" alt=""><figcaption><p>Qwen3.6 läuft in <a href="#unsloth-studio-guide">Unsloth Studio</a>.</p></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

### :gear: Verwendungsleitfaden

**Tabelle: Hardwareanforderungen für die Inferenz** (Einheiten = gesamter Speicher: RAM + VRAM oder gemeinsamer Speicher)

<table><thead><tr><th>Qwen3.6</th><th>3-Bit</th><th>4-Bit</th><th width="128">6-Bit</th><th>8-Bit</th><th>BF16</th></tr></thead><tbody><tr><td><strong>27B</strong></td><td>15 GB</td><td>18 GB</td><td>24 GB</td><td>30 GB</td><td>55 GB</td></tr><tr><td><strong>35B-A3B</strong></td><td>17 GB</td><td>23 GB</td><td>30 GB</td><td>38 GB</td><td>70 GB</td></tr></tbody></table>

{% hint style="success" %}
Für beste Leistung stellen Sie sicher, dass Ihr insgesamt verfügbarer Speicher (VRAM + Systemspeicher) die Größe der heruntergeladenen quantisierten Modelldatei übersteigt. Wenn nicht, kann llama.cpp weiterhin per SSD/HDD-Offloading ausgeführt werden, die Inferenz wird jedoch langsamer sein.
{% endhint %}

{% hint style="warning" %}
Verwenden Sie CUDA 13.2 NICHT, da sonst möglicherweise Kauderwelsch-Ausgaben entstehen. NVIDIA arbeitet an einer Lösung.
{% endhint %}

**Zum Trainieren von Qwen3.6 können Sie auf unseren früheren** [**Qwen3.5-Fine-Tuning-Leitfaden**](/docs/de/modelle/qwen3.5/fine-tune.md)**.**

### Empfohlene Einstellungen

* **Maximales Kontextfenster:** `262,144` (kann über YaRN auf 1M erweitert werden)
* `presence_penalty = 0,0 bis 2,0` standardmäßig ist dies deaktiviert, aber um Wiederholungen zu reduzieren, können Sie dies verwenden; ein höherer Wert kann jedoch zu **einer leichten Leistungsabnahme führen**
* **Ausreichende Ausgabelänge**: `32,768` Tokens für die meisten Abfragen

{% hint style="info" %}
Wenn Sie Kauderwelsch erhalten, ist Ihre Kontextlänge möglicherweise zu niedrig eingestellt. Oder versuchen Sie `--cache-type-k bf16 --cache-type-v bf16` das helfen könnte.
{% endhint %}

Da Qwen3.6 hybrides Reasoning verwendet, haben Denk- und Nicht-Denk-Modus unterschiedliche Einstellungen:

#### Denkmodus:

{% hint style="success" %}
Qwen3.6 hat jetzt [Denken beibehalten](#turn-on-off-thinking--preserve-thinking).
{% endhint %}

| Allgemeine Aufgaben                    | Präzise Coden-Aufgaben (z. B. WebDev)  |
| -------------------------------------- | -------------------------------------- |
| temperature = 1,0                      | temperature = 0,6                      |
| top\_p = 0,95                          | top\_p = 0,95                          |
| top\_k = 20                            | top\_k = 20                            |
| min\_p = 0,0                           | min\_p = 0,0                           |
| presence\_penalty = 1,5                | presence\_penalty = 0,0                |
| repeat\_penalty = deaktiviert oder 1,0 | repeat\_penalty = deaktiviert oder 1,0 |

{% columns %}
{% column %}
Denkmodus für allgemeine Aufgaben:

{% code overflow="wrap" %}

```bash
temperature=1,0, top_p=0,95, top_k=20, min_p=0,0, presence_penalty=1,5, repetition_penalty=1,0
```

{% endcode %}
{% endcolumn %}

{% column %}
Denkmodus für präzise Coden-Aufgaben:

{% code overflow="wrap" %}

```bash
temperature=0,6, top_p=0,95, top_k=20, min_p=0,0, presence_penalty=0,0, repetition_penalty=1,0
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

#### Einstellungen für den Instruct-Modus (Nicht-Denkmodus):

| Allgemeine Aufgaben                    | Reasoning-Aufgaben                     |
| -------------------------------------- | -------------------------------------- |
| temperature = 0,7                      | temperature = 1,0                      |
| top\_p = 0,8                           | top\_p = 0,95                          |
| top\_k = 20                            | top\_k = 20                            |
| min\_p = 0,0                           | min\_p = 0,0                           |
| presence\_penalty = 1,5                | presence\_penalty = 1,5                |
| repeat\_penalty = deaktiviert oder 1,0 | repeat\_penalty = deaktiviert oder 1,0 |

{% hint style="warning" %}
Zum [Deaktivieren von Denken / Reasoning](#how-to-enable-or-disable-reasoning-and-thinking), verwenden Sie `--chat-template-kwargs '{"enable_thinking":false}'`

Wenn Sie **Windows** PowerShell `verwenden, nutzen Sie:`

Verwenden Sie 'true' und 'false' austauschbar.
{% endhint %}

{% columns %}
{% column %}
Instruct (Nicht-Denkmodus) für allgemeine Aufgaben:

{% code overflow="wrap" %}

```bash
temperature=0,7, top_p=0,8, top_k=20, min_p=0,0, presence_penalty=1,5, repetition_penalty=1,0
```

{% endcode %}
{% endcolumn %}

{% column %}
Instruct (Nicht-Denkmodus) für Reasoning-Aufgaben:

{% code overflow="wrap" %}

```bash
temperature=1,0, top_p=0,95, top_k=20, min_p=0,0, presence_penalty=1,5, repetition_penalty=1,0
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

## Qwen3.6-Inferenz-Tutorials:

Wir werden Dynamic 4-Bit verwenden `UD_Q4_K_XL` GGUF-Varianten für Inferenz-Workloads. Klicken Sie unten, um zu den Anweisungen für das jeweilige Modell zu gelangen:

{% hint style="warning" %}
Verwenden Sie CUDA 13.2 NICHT, da sonst möglicherweise Kauderwelsch-Ausgaben entstehen. NVIDIA arbeitet an einer Lösung.
{% endhint %}

<a href="/pages/efc00d6b1d286a029d0eec8a5a6a24d50b063840#mtp-guide" class="button primary">MTP-Leitfaden</a><a href="/pages/53f3f20fc7a21f1ca51eb7268267793cb5975b35#unsloth-studio-guide" class="button primary">In Unsloth Studio ausführen</a><a href="/pages/efc00d6b1d286a029d0eec8a5a6a24d50b063840#llama.cpp-guides" class="button secondary">In llama.cpp ausführen</a>

{% hint style="info" %}
`presence_penalty = 0,0 bis 2,0` standardmäßig ist dies deaktiviert, aber um Wiederholungen zu reduzieren, können Sie dies verwenden; ein höherer Wert kann jedoch zu **leichter Leistungsabfall.**

Derzeit funktioniert kein Qwen3.6-GGUF in Ollama aufgrund separater mmproj-Vision-Dateien. Verwenden Sie llama.cpp-kompatible Backends.
{% endhint %}

### ⚡ MTP-Leitfaden

MTP (Multi Token Prediction) speculative decoding ermöglicht Modellen wie Qwen3.6 **eine \~1,4- bis 2-fach schnellere Generierung mit&#x20;**<mark style="background-color:$success;">**keiner Änderung der Genauigkeit**</mark>. Dadurch können Qwen3.6 27B und 35B-A3B **eine >1,4-fache Beschleunigung** gegenüber der ursprünglichen Baseline erreichen, was besonders für lokale Modelle nützlich ist.

**Qwen3.6 27B kann jetzt 140 Token/s generieren, und Qwen3.6 35B-A3B 220 Token/s!** Siehe [#mtp-benchmarks](#mtp-benchmarks "mention") für weitere Details

| [Qwen3.6-27B-MTP-GGUF](https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF) | [Qwen3.6-35B-A3B-MTP-GGUF](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF) |
| --------------------------------------------------------------------------- | ----------------------------------------------------------------------------------- |

<div data-with-frame="true"><figure><img src="/files/0af8affb90f64b17f6bc3dff49289c83125dd627" alt=""><figcaption></figcaption></figure></div>

In der Praxis sagt MTP mehrere zukünftige Tokens voraus, dann verifiziert das Hauptmodell diese Tokens parallel. Dadurch verringert sich die Anzahl der während der Generierung benötigten Vorwärtsdurchläufe und die Ausgabe wird schneller. Wir haben festgestellt `--spec-draft-n-max 2` funktioniert am besten!

{% stepper %}
{% step %}
Installieren Sie die **spezifische** `llama.cpp` PR-Branch auf [**GitHub hier**](https://github.com/ggml-org/llama.cpp/pull/22673). Sie können auch die Build-Anweisungen unten befolgen. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone -b mtp-clean https://github.com/am17an/llama.cpp.git
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Wenn Sie `llama.cpp` direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:`Q4_K_XL`) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwenden Sie `export LLAMA_CACHE="folder"` um zu erzwingen `llama.cpp` in einem bestimmten Speicherort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Befolgen Sie einen der Befehle für die spezifischen Modelle:

<a href="/pages/efc00d6b1d286a029d0eec8a5a6a24d50b063840#mtp-qwen3.6-27b" class="button primary">27B MTP</a><a href="/pages/efc00d6b1d286a029d0eec8a5a6a24d50b063840#mtp-qwen3.6-35b-a3b" class="button primary">35-A3B MTP</a>

#### MTP Qwen3.6-27B:

**Denkmodus:**

{% hint style="info" %}
Bitte beachten Sie Qwen3.6s neue [Erhaltenes Denken](#thinking-enable-disable--preserve-thinking).
{% endhint %}

Allgemeine Aufgaben:

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-27B-MTP-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \\
    --temp 1,0 \\
    --top-p 0,95 \\
    --top-k 20 \\
    --presence-penalty 1,5 \\
    --min-p 0,00 \\
    --spec-type mtp --spec-draft-n-max 2
```

Für präzise Coden-Aufgaben ändern Sie: `temperature=0,6, presence-penalty=0,0`

**Nicht-Denkmodus:**

Allgemeine Aufgaben:

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-27B-MTP-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q4_K_XL \\
    --temp 0,7 \\
    --top-p 0,8 \\
    --top-k 20 \\
    --presence-penalty 1,5 \\
    --min-p 0,00 \\
    --spec-type mtp --spec-draft-n-max 2 \\
    --chat-template-kwargs '{"enable_thinking":false}'
```

Für Reasoning-Aufgaben ändern Sie: `temperature=1,0, top-p=0,95`

#### MTP Qwen3.6-35B-A3B:

**Denkmodus:**

{% hint style="info" %}
Bitte beachten Sie Qwen3.6s neue [Erhaltenes Denken](#thinking-enable-disable--preserve-thinking).
{% endhint %}

Allgemeine Aufgaben:

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \\
    --temp 1,0 \\
    --top-p 0,95 \\
    --top-k 20 \\
    --presence-penalty 1,5 \\
    --min-p 0,00 \\
    --spec-type mtp --spec-draft-n-max 2
```

Für präzise Coden-Aufgaben ändern Sie: `temperature=0,6, presence-penalty=0,0`

**Nicht-Denkmodus:**

Allgemeine Aufgaben:

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \\
    --temp 0,7 \\
    --top-p 0,8 \\
    --top-k 20 \\
    --presence-penalty 1,5 \\
    --min-p 0,00 \\
    --spec-type mtp --spec-draft-n-max 2 \\
    --chat-template-kwargs '{"enable_thinking":false}'
```

Für Reasoning-Aufgaben ändern Sie: `temperature=1,0, top-p=0,95`
{% endstep %}

{% step %}
Laden Sie das Modell über den folgenden Code herunter (nach der Installation von `pip install huggingface_hub hf_transfer`). Sie können Q4\_K\_M oder andere quantisierte Versionen wählen, wie `UD-Q4_K_XL` . Wir empfehlen, mindestens die dynamische 2-Bit-Quantisierung zu verwenden `UD-Q2_K_XL` um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Qwen3.6-35B-A3B-MTP-GGUF \\
    --local-dir unsloth/Qwen3.6-35B-A3B-MTP-GGUF \\
    --include "*mmproj-F16*" \\
    --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für Dynamic 2bit
```

{% endstep %}

{% step %}
Dann führen Sie das Modell im Konversationsmodus aus:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Qwen3.6-35B-A3B-MTP-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Qwen3.6-35B-A3B-MTP-GGUF/mmproj-F16.gguf \\
    --temp 1,0 \\
    --top-p 0,95 \\
    --min-p 0,00 \\
    --presence-penalty 1,5 \\
    --top-k 20
```

{% endcode %}
{% endstep %}
{% endstepper %}

### 🦥 Unsloth Studio-Leitfaden

Qwen3.6 kann ausgeführt und feinabgestimmt werden in [Unsloth Studio](/docs/de/neu/studio.md), unserer neuen Open-Source-Web-UI für lokale KI. Unsloth Studio ermöglicht es Ihnen, Modelle lokal auszuführen auf **MacOS, Windows**, Linux und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* [**Selbstheilendes** Tool-Aufrufen](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-P usw.)
* Schnelle CPU- + GPU-Inferenz via llama.cpp
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70 % weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/185679ec5ea5e6010281442e142bd0d961fb8f08" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

Führen Sie in Ihrem Terminal aus:

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% hint style="success" %}
**Die Installation wird schnell sein und dauert ungefähr 20 Sek. bis 1 Min.**
{% endhint %}
{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL und Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/311a34fac8923d2f80dd8c143a1d9c68dff96db5" alt="" width="375"><figcaption></figcaption></figure></div>

Dann öffnen Sie `http://127.0.0.1:8888` (oder Ihre spezifische URL) in Ihrem Browser.
{% endstep %}

{% step %}

#### Qwen3.6 suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen.

Dann gehen Sie zum [Studio-Chat](/docs/de/neu/studio/chat.md) Tab und suchen Sie in der Suchleiste nach Qwen3.6 und laden Sie das gewünschte Modell und den gewünschten Quant herunter.

<div data-with-frame="true"><figure><img src="/files/def8abf54e7d27792de89084491d2f3c70ed6f53" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Qwen3.6 ausführen

Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können außerdem die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Für weitere Informationen können Sie unseren [Unsloth-Studio-Inferenzleitfaden](/docs/de/neu/studio/chat.md). Unten machte das 2-Bit-Qwen3.6-GGUF 30+ Tool-Aufrufe, suchte 20 Websites und führte Python-Code aus:

{% embed url="<https://cdn-uploads.huggingface.co/production/uploads/62ecdc18b72a69615d6bd857/9lqVQm1qDX3elt6Uan5Vm.mp4>" %}
{% endstep %}
{% endstepper %}

### 🦙 Llama.cpp-Leitfäden

Für diesen Leitfaden werden wir Dynamic 4-Bit verwenden, das auf einem 24-GB-RAM-/Mac-Gerät für schnelle Inferenz auf [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp)hervorragend funktioniert. Da das Modell bei voller F16-Präzision nur etwa 72 GB groß ist, müssen wir uns um die Leistung nicht allzu viele Sorgen machen. [Siehe unsere GGUF-Sammlung](https://huggingface.co/collections/unsloth/qwen36).

<a href="/pages/efc00d6b1d286a029d0eec8a5a6a24d50b063840#qwen3.6-27b" class="button primary">27B</a><a href="/pages/efc00d6b1d286a029d0eec8a5a6a24d50b063840#qwen3.6-35b-a3b" class="button primary">35-A3B</a>

{% stepper %}
{% step %}
Erhalten Sie die neueste `llama.cpp` **auf** [**GitHub hier**](https://github.com/ggml-org/llama.cpp). Sie können auch die Build-Anweisungen unten befolgen. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Wenn Sie `llama.cpp` direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:`Q4_K_XL`) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwenden Sie `export LLAMA_CACHE="folder"` um zu erzwingen `llama.cpp` in einem bestimmten Speicherort zu speichern. Das Modell hat eine maximale Kontextlänge von 256K.

Befolgen Sie einen der Befehle für die spezifischen Modelle:

<a href="/pages/efc00d6b1d286a029d0eec8a5a6a24d50b063840#qwen3.5-27b" class="button primary">27B</a><a href="/pages/efc00d6b1d286a029d0eec8a5a6a24d50b063840#qwen3.5-35b-a3b" class="button primary">35-A3B</a>

#### Qwen3.6-27B:

**Denkmodus:**

{% hint style="info" %}
Bitte beachten Sie Qwen3.6s neue [Erhaltenes Denken](#thinking-enable-disable--preserve-thinking).
{% endhint %}

Allgemeine Aufgaben:

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-27B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \\
    --temp 1,0 \\
    --top-p 0,95 \\
    --top-k 20 \\
    --presence-penalty 1,5 \\
    --min-p 0,00
```

Für präzise Coden-Aufgaben ändern Sie: `temperature=0,6, presence-penalty=0,0`

**Nicht-Denkmodus:**

Allgemeine Aufgaben:

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-27B-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \\
    --temp 0,7 \\
    --top-p 0,8 \\
    --top-k 20 \\
    --presence-penalty 1,5 \\
    --min-p 0,00 \\
    --chat-template-kwargs '{"enable_thinking":false}'
```

Für Reasoning-Aufgaben ändern Sie: `temperature=1,0, top-p=0,95`

#### Qwen3.6-35B-A3B:

**Denkmodus:**

{% hint style="info" %}
Bitte beachten Sie Qwen3.6s neue [Erhaltenes Denken](#thinking-enable-disable--preserve-thinking).
{% endhint %}

Allgemeine Aufgaben:

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL \\
    --temp 1,0 \\
    --top-p 0,95 \\
    --top-k 20 \\
    --presence-penalty 1,5 \\
    --min-p 0,00
```

Für präzise Coden-Aufgaben ändern Sie: `temperature=0,6, presence-penalty=0,0`

**Nicht-Denkmodus:**

Allgemeine Aufgaben:

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL \\
    --temp 0,7 \\
    --top-p 0,8 \\
    --top-k 20 \\
    --presence-penalty 1,5 \\
    --min-p 0,00 \\
    --chat-template-kwargs '{"enable_thinking":false}'
```

Für Reasoning-Aufgaben ändern Sie: `temperature=1,0, top-p=0,95`
{% endstep %}

{% step %}
Laden Sie das Modell über den folgenden Code herunter (nach der Installation von `pip install huggingface_hub hf_transfer`). Sie können Q4\_K\_M oder andere quantisierte Versionen wählen, wie `UD-Q4_K_XL` . Wir empfehlen, mindestens die dynamische 2-Bit-Quantisierung zu verwenden `UD-Q2_K_XL` um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Qwen3.6-35B-A3B-GGUF \\
    --local-dir unsloth/Qwen3.6-35B-A3B-GGUF \\
    --include "*mmproj-F16*" \\
    --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für Dynamic 2bit
```

{% endstep %}

{% step %}
Dann führen Sie das Modell im Konversationsmodus aus:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \\
    --temp 1,0 \\
    --top-p 0,95 \\
    --min-p 0,00 \\
    --presence-penalty 1,5 \\
    --top-k 20
```

{% endcode %}
{% endstep %}
{% endstepper %}

#### Llama-Server- und OpenAI-Completion-Bibliothek

Um Qwen3.6 für die Produktion bereitzustellen, verwenden wir `llama-server` In einem neuen Terminal, z. B. über tmux, stellen Sie das Modell bereit mit:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \\
--model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \\
    --alias "unsloth/Qwen3.6-35B-A3B" \\
    --temp 0,6 \\
    --top-p 0,95 \\
    --ctx-size 16384 \\
    --top-k 20 \\
    --min-p 0,00 \\
    --port 8001
```

{% endcode %}

Dann in einem neuen Terminal, nachdem Sie `pip install openai`ausgeführt haben, tun Sie:

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.6-35B-A3B",
    messages = [{"role": "user", "content": "Erstelle ein Snake-Spiel."},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

### 🍎 MLX Dynamic Quants

Wir haben außerdem dynamische Qwen3.6-4bit- und 8bit-Quants für MacOS-Geräte hochgeladen! Unser MLX-Quantisierungsalgorithmus entwickelt sich noch weiter, und wir verfeinern ihn aktiv überall dort, wo Verbesserungen möglich sind.

**Qwen3.6-27B MLX:**

| [3-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-3bit) | [4-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-4bit) | [MXFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-MXFP4) | [NVFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4) | [6-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-6bit) | [8-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-MLX-8bit) |
| --------------------------------------------------------------- | --------------------------------------------------------------- | ---------------------------------------------------------------- | ---------------------------------------------------------------- | --------------------------------------------------------------- | ------------------------------------------------------------ |

**Qwen3.6-35B-A3B MLX:**

| [3-Bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-UD-MLX-3bit) | [4-Bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-UD-MLX-4bit) | [8-Bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MLX-8bit) |
| ------------------------------------------------------------------- | ------------------------------------------------------------------- | ---------------------------------------------------------------- |

Zum Ausprobieren verwenden Sie:

{% code overflow="wrap" %}

```bash
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_qwen3_6_mlx.sh | sh
source ~/.unsloth/unsloth_qwen3_6_mlx/bin/activate
python -m mlx_vlm.chat --model unsloth/Qwen3.6-27B-UD-MLX-4bit
```

{% endcode %}

Unten finden Sie die KL-Divergenz-(KLD)- und Perplexity-(PPL)-Werte für Qwen3.6-27B (niedriger ist besser):

| Modell                                                           | Mittlere KLD | Mediane KLD | PPL   | P90 KLD | P99,9 KLD | Größe   |
| ---------------------------------------------------------------- | ------------ | ----------- | ----- | ------- | --------- | ------- |
| [8-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-MLX-8bit)     | 0.0028       | 0.0003      | 4.812 | 0.0019  | 0.192     | 34,7 GB |
| [6-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-6bit)  | 0.0037       | 0.0007      | 4.809 | 0.0032  | 0.343     | 30,5 GB |
| [4-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-4bit)  | 0.0227       | 0.0053      | 4.821 | 0.0293  | 2.339     | 26,2 GB |
| [NVFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4) | 0.0325       | 0.0087      | 4.843 | 0.0466  | 3.693     | 26,2 GB |
| [MXFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-MXFP4) | 0.0479       | 0.0153      | 4.902 | 0.0769  | 4.035     | 25,6 GB |
| [3-Bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-3bit)  | 0.0734       | 0.0223      | 4.976 | 0.1261  | 5.529     | 24,1 GB |

### 💡 Denken: Aktivieren/Deaktivieren + Denken beibehalten

Qwen3.6 hat auch **Denken beibehalten** das den Denkpfad aus der vorherigen Unterhaltung beibehält. Das erhöht die Anzahl der verwendeten Tokens, kann aber die Genauigkeit in fortgesetzten Unterhaltungen verbessern. Unsloth Studio hat für Qwen3.6 Schalter für 'Think' und 'Preserved Thinking':

<div data-with-frame="true"><figure><img src="/files/185679ec5ea5e6010281442e142bd0d961fb8f08" alt="" width="563"><figcaption><p>Unsloth Studio hat standardmäßig den Think-Schalter und einen neuen <a href="#preserved-thinking">Erhaltenes Denken</a> Schalter</p></figcaption></figure></div>

Um **Denken beibehalten** in llama.cpp zu aktivieren, verwenden Sie (ändern Sie zu 'true' oder 'false') '`preseve_thinking`' statt '`enable_thinking`' oder '`disable_thinking`'.

{% code expandable="true" %}

```bash
--chat-template-kwargs '{"preserve_thinking":true}'
```

{% endcode %}

Für normales Denken können Sie Thinking in llama.cpp mit den untenstehenden Befehlen aktivieren / deaktivieren. Verwenden Sie '`true`' und '`false`' austauschbar.&#x20;

<table data-full-width="false"><thead><tr><th width="197.76666259765625">llama-server OS:</th><th>Denken aktivieren</th><th>Denken deaktivieren</th></tr></thead><tbody><tr><td>Linux, MacOS, WSL:</td><td><pre data-overflow="wrap"><code>--chat-template-kwargs '{"enable_thinking":true}'
</code></pre></td><td><pre data-overflow="wrap"><code>--chat-template-kwargs '{"enable_thinking":false}'
</code></pre></td></tr><tr><td>Windows / PowerShell:</td><td><pre data-overflow="wrap"><code>--chat-template-kwargs "{\"enable_thinking\":true}"
</code></pre></td><td><pre data-overflow="wrap"><code>verwenden, nutzen Sie:
</code></pre></td></tr></tbody></table>

Als Beispiel für Qwen3.6-35B-A3B zum Aktivieren von Denken beibehalten (standardmäßig aktiviert):

```bash
./llama.cpp/llama-server \\
    --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-BF16.gguf \\
    --alias "unsloth/Qwen3.6-35B-A3B-GGUF" \\
    --temp 0,6 \\
    --top-p 0,95 \\
    --top-k 20 \\
    --min-p 0,00 \\
    --port 8001 \\
    --chat-template-kwargs '{"preserve_thinking":true}'
```

Und dann in Python:

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.6-35B-A3B-GGUF",
    messages = [{"role": "user", "content": "Was ist 2+2?"},],
)
print(completion.choices[0].message.content)
print(completion.choices[0].message.reasoning_content)
```

### 👨‍💻 OpenAI Codex & Claude Code <a href="#claude-codex" id="claude-codex"></a>

Um das Modell für lokale agentische Coding-Workloads auszuführen, können Sie [unserem Leitfaden folgen](/docs/de/grundlagen/claude-code.md). Ändern Sie einfach den Modellnamen in Ihre 'Qwen3.6'-Variante und stellen Sie sicher, dass Sie die korrekten Qwen3.6-Parameter und Nutzungsanweisungen befolgen. Verwenden Sie das `llama-server` wir gerade eben eingerichtet haben.

{% columns %}
{% column %}
{% content-ref url="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b" %}
[Claude Code](/docs/de/grundlagen/claude-code.md)
{% endcontent-ref %}
{% endcolumn %}

{% column %}
{% content-ref url="/pages/1813c928d883d651dff92062bc0da6e96d06e50a" %}
[OpenAI Codex](/docs/de/grundlagen/codex.md)
{% endcontent-ref %}
{% endcolumn %}
{% endcolumns %}

Nachdem Sie beispielsweise die Anweisungen für Claude Code befolgt haben, sehen Sie:

<div data-with-frame="true"><figure><img src="/files/35dfc7f72062d79aa1a2670d9af59e51d51eb13f" alt="" width="563"><figcaption></figcaption></figure></div>

Wir können dann fragen, sagen `Erstelle ein Python-Spiel für Schach` :

<div><figure><img src="/files/eba6ddd22858ebe5043a593056568c701079f646" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="/files/62cff537cbd1853e00a15adeb5a97254daceea81" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="/files/8c0280989d7d2acb23f4f9641aba1c285c014e85" alt="" width="563"><figcaption></figcaption></figure></div>

## 📊 Benchmarks

### Unsloth GGUF-Benchmarks

Wir haben Mean-KL-Divergenz-Benchmarks für Qwen3.6-35-A3B-GGUFs über verschiedene Anbieter hinweg durchgeführt, um Ihnen bei der Auswahl des besten Quants zu helfen.

* KL-Divergenz bringt fast alle Unsloth-GGUFs auf die SOTA-Pareto-Frontier
* KLD zeigt, wie gut ein quantisiertes Modell zur ursprünglichen BF16-Ausgabeverteilung passt, und zeigt damit die erhaltene Genauigkeit an.
* Damit ist Unsloth bei 21 von 22 Größen der leistungsstärkste
* Nur Q6\_K wurde für mehr Dynamic-Schichten aktualisiert, und wir haben ein neues eingeführt `UD-IQ4_NL_XL` quant

<div data-with-frame="true"><figure><img src="/files/101f64692735cf853b86932c7c39548985abec3a" alt=""><figcaption><p>35B-A3B - KLD-Benchmarks (niedriger ist besser)</p></figcaption></figure></div>

### MTP-Benchmarks

Wir haben die neuen Quants benchmarked, die wir für 27B- und 35B-MoE erstellt haben. Im Allgemeinen werden dichte Modelle mit MTP viel stärker beschleunigt (1,4-2x) als MoE-Modelle (1,15-1,25x).

Damit kann Qwen3.6 27B jetzt 140 Token/s mit UD-Q2\_K\_XL generieren und Qwen3.6 35B-A3B 220 Token/s! Einige der Durchsatzwerte sind verrauscht, daher sollten Sie nicht daraus schließen, dass manche Quants langsamer als andere sind.

<figure><img src="/files/c3739acf00e879dd641564af7d9f8df674baa7e6" alt=""><figcaption></figcaption></figure>

Beim durchschnittlichen Speedup sehen wir 1,4x für dichte Modelle bei draft tokens = 2 und für das MoE etwa 1,15 bis 1,2x.

<figure><img src="/files/886784e28acd128e1e613459f045d9008db78c8f" alt=""><figcaption></figcaption></figure>

Wir empfehlen nicht mehr als 2 Draft-Tokens, da die Akzeptanzrate bei 4 Draft-Tokens abrupt von 83 % auf 50 % fällt und die Vorwärtsdurchläufe für MTP dadurch weniger vorteilhaft werden.

<figure><img src="/files/6157023655153af094b5b57618ead67c0dd1c9c2" alt=""><figcaption></figcaption></figure>

### Offizielle Qwen-Benchmarks

#### Qwen3.6-27B

<div data-with-frame="true"><figure><img src="/files/162d4e7bd940d7fae24463a134736c7d729e1b26" alt=""><figcaption></figcaption></figure></div>

#### Qwen3.6-35B-A3B

<div data-with-frame="true"><figure><img src="/files/65a6c424b3f3977b09499451dc2e402ea49fb79f" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/qwen3.6.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
