# Qwen3-Next: Leitfaden zum lokalen Ausführen

Qwen veröffentlichte im Sept. 2025 Qwen3-Next, das 80B-MoEs mit Thinking- und Instruct-Modellvarianten von [Qwen3](/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune.md). Mit 256K Kontext wurde Qwen3-Next mit einer brandneuen Architektur entworfen (Hybrid aus MoEs & Gated DeltaNet + Gated Attention), die speziell für schnelle Inferenz bei längeren Kontextlängen optimiert ist. Qwen3-Next hat eine 10-mal schnellere Inferenz als Qwen3-32B.

<a href="/pages/c8b6895be773f2849bd57d1b0d3578f491bfa67c#run-qwen3-next-tutorials" class="button secondary">Qwen3-Next Instruct ausführen</a><a href="/pages/c8b6895be773f2849bd57d1b0d3578f491bfa67c#thinking-qwen3-next-80b-a3b-thinking" class="button secondary">Qwen3-Next Thinking ausführen</a>

Qwen3-Next-80B-A3B Dynamische GGUFs: [**Instruct**](https://huggingface.co/unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF) **•** [**Thinking**](https://huggingface.co/unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF)

### ⚙️ Nutzungsanleitung

{% hint style="success" %}
NEU seit dem 6. Dez. 2025: Unsloth Qwen3-Next jetzt mit iMatrix aktualisiert für verbesserte Leistung.

Das Thinking-Modell verwendet `temperature = 0.6`, aber das Instruct-Modell verwendet `temperature = 0.7`\
Das Thinking-Modell verwendet `top_p = 0.95`, aber das Instruct-Modell verwendet `top_p = 0.8`
{% endhint %}

Um eine optimale Leistung zu erreichen, empfiehlt Qwen diese Einstellungen:

| Instruct:                                                                                                                                           | Thinking:                                                                                                                                           |
| --------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------- |
| <mark style="background-color:blue;">`Temperatur = 0,7`</mark>                                                                                      | <mark style="background-color:blue;">`Temperatur = 0,6`</mark>                                                                                      |
| `Min_P = 0,00` (Der Standardwert von llama.cpp ist 0,1)                                                                                             | `Min_P = 0,00` (Der Standardwert von llama.cpp ist 0,1)                                                                                             |
| `Top_P = 0,80`                                                                                                                                      | `Top_P = 0,95`                                                                                                                                      |
| `TopK = 20`                                                                                                                                         | `TopK = 20`                                                                                                                                         |
| `presence_penalty = 0,0 bis 2,0` (Der Standardwert von llama.cpp deaktiviert dies, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) | `presence_penalty = 0,0 bis 2,0` (Der Standardwert von llama.cpp deaktiviert dies, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) |

**Angemessene Ausgabelänge**: Verwenden Sie eine Ausgabelänge von `32,768` Tokens für die meisten Anfragen für die Thinking-Variante und `16,384` für die Instruct-Variante. Sie können die maximale Ausgabengröße für das Thinking-Modell bei Bedarf erhöhen.

Chat-Vorlage für sowohl Thinking (Thinking hat `<think></think>`) und Instruct ist unten:

```
<|im_start|>user
Hey da!<|im_end|>
<|im_start|>assistant
Was ist 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant
```

## 📖 Qwen3-Next-Tutorials ausführen

Unten sind Anleitungen für die [Thinking](#thinking-qwen3-next-80b-a3b-thinking) und [Instruct](#instruct-qwen3-next-80b-a3b-instruct) Versionen des Modells.

### Instruct: Qwen3-Next-80B-A3B-Instruct

Da dies ein Nicht-Thinking-Modell ist, erzeugt das Modell keine `<think> </think>` Blöcke.

#### ⚙️Best Practices

Um eine optimale Leistung zu erreichen, empfiehlt Qwen die folgenden Einstellungen:

* Wir empfehlen die Verwendung von `temperature=0.7, top_p=0.8, top_k=20 und min_p=0.0` `presence_penalty` zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
* **`temperature = 0.7`**
* `top_k = 20`
* `min_p = 0,00` (Der Standardwert von llama.cpp ist 0,1)
* **`top_p = 0,80`**
* `presence_penalty = 0,0 bis 2,0` (Der Standardwert von llama.cpp deaktiviert dies, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Versuchen Sie beispielsweise 1,0.
* Unterstützt nativ bis zu `262,144` Kontext, aber Sie können es auf `32,768` Tokens für geringeren RAM-Verbrauch setzen

#### :sparkles: Llama.cpp: Qwen3-Next-80B-A3B-Instruct-Tutorial ausführen

1. Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Du kannst direkt von HuggingFace herunterladen über:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF:Q4_K_XL \\
       --jinja -ngl 99 --ctx-size 32768 \\
       --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0
   ```
3. Lade das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `UD_Q4_K_XL` oder andere quantisierte Versionen auswählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF",
    local_dir = "Qwen3-Next-80B-A3B-Instruct-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### Thinking: Qwen3-Next-80B-A3B-Thinking

Dieses Modell unterstützt nativ nur den Thinking-Modus und ein 256K-Kontextfenster. Die Standard-Chatvorlage fügt `<think>` automatisch hinzu, sodass Sie in der Ausgabe möglicherweise nur ein schließendes `</think>` Tag sehen.

#### ⚙️Best Practices

Um eine optimale Leistung zu erreichen, empfiehlt Qwen die folgenden Einstellungen:

* Wir empfehlen die Verwendung von `temperature=0.6, top_p=0.95, top_k=20 und min_p=0.0` `presence_penalty` zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0,00` (Der Standardwert von llama.cpp ist 0,1)
* **`top_p = 0.95`**
* `presence_penalty = 0,0 bis 2,0` (Der Standardwert von llama.cpp deaktiviert dies, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Versuchen Sie beispielsweise 1,0.
* Unterstützt nativ bis zu `262,144` Kontext, aber Sie können es auf `32,768` Tokens für geringeren RAM-Verbrauch setzen

#### :sparkles: Llama.cpp: Qwen3-Next-80B-A3B-Thinking-Tutorial ausführen

1. Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Sie können direkt von Hugging Face ziehen über:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF:Q4_K_XL \\
       --jinja -ngl 99 --ctx-size 32768 \\
       --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0
   ```
3. Lade das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `UD_Q4_K_XL` oder andere quantisierte Versionen auswählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF",
    local_dir = "Qwen3-Next-80B-A3B-Thinking-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### 🛠️ Generierungsgeschwindigkeit verbessern <a href="#improving-generation-speed" id="improving-generation-speed"></a>

Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Layer oder ganze Layer auszulagern.

Normalerweise `-ot ".ffn_.*_exps.=CPU"` lagert alle MoE-Layer auf die CPU aus! Dadurch können Sie effektiv alle Nicht-MoE-Layer auf 1 GPU unterbringen, was die Generierungsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Layer unterzubringen, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie `-ot ".ffn_(up|down)_exps.=CPU"` Dies lagert die MoE-Layer für Up- und Down-Projektionen aus.

Versuchen Sie `-ot ".ffn_(up)_exps.=CPU"` wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur die MoE-Layer für Up-Projektionen aus.

Sie können den Regex auch anpassen, zum Beispiel `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` bedeutet, Gate-, Up- und Down-MoE-Layer auszulagern, aber nur ab der 6. Schicht.

Die [neueste llama.cpp-Version](https://github.com/ggml-org/llama.cpp/pull/14363) führt außerdem den High-Throughput-Modus ein. Verwenden Sie `llama-parallel`. Lesen Sie mehr darüber [hier](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel). Sie können auch **den KV-Cache auf 4 Bit quantisieren** zum Beispiel, um VRAM-/RAM-Übertragungen zu reduzieren, was den Generierungsprozess auch schneller machen kann. Der [nächste Abschnitt](#how-to-fit-long-context-256k-to-1m) spricht über die KV-Cache-Quantisierung.

### 📐Wie man langen Kontext unterbringt <a href="#how-to-fit-long-context-256k-to-1m" id="how-to-fit-long-context-256k-to-1m"></a>

Um längeren Kontext unterzubringen, können Sie **KV-Cache-Quantisierung** verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generierungsgeschwindigkeit aufgrund des geringeren RAM-/VRAM-Datenverkehrs erhöhen. Die zulässigen Optionen für die K-Quantisierung (Standard ist `f16`) sind unten aufgeführt.

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

Sie sollten die `_1` Varianten verwenden, um die Genauigkeit etwas zu erhöhen, auch wenn es etwas langsamer ist. Zum Beispiel `q4_1, q5_1` Probieren Sie also `--cache-type-k q4_1`

Sie können auch den V-Cache quantisieren, aber dafür müssen Sie **llama.cpp mit Flash Attention-Unterstützung kompilieren via** -DGGML\_CUDA\_FA\_ALL\_QUANTS=ON `, und`--flash-attn `verwenden, um es zu aktivieren. Dann können Sie es zusammen mit` aus, um es zu aktivieren. Nach der Installation von Flash Attention können Sie dann `--cache-type-v q4_1`

<figure><img src="/files/4e5dde2a6f0fd4718e669087d4bea02fd5dd7bc4" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/qwen3-next.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
