> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune/qwen3-2507.md).

# Qwen3-2507: Anleitung zum lokalen Ausführen

Qwen veröffentlichte 2507-Updates (Juli 2025) für ihre [Qwen3](/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune.md) 4B-, 30B- und 235B-Modelle und führte sowohl „Thinking“- als auch „Non-Thinking“-Varianten ein. Die Non-Thinking-**Qwen3-30B-A3B-Instruct-2507**' und '**Qwen3-235B-A22B-Instruct-2507'** verfügt über ein Kontextfenster von 256K, verbessertes Befolgen von Anweisungen, mehrsprachige Fähigkeiten und Ausrichtung.

Die Thinking-Modelle '**Qwen3-30B-A3B-Thinking-2507**' und '**Qwen3-235B-A22B-Thinking-2507**' glänzen beim Schlussfolgern, wobei das 235B in Logik, Mathematik, Wissenschaft, Programmierung und fortgeschrittenen akademischen Aufgaben SOTA-Ergebnisse erzielt.

[Unsloth](https://github.com/unslothai/unsloth) unterstützt jetzt auch Fine-Tuning und [Bestärkendes Lernen (RL)](/docs/de/loslegen/reinforcement-learning-rl-guide.md) von Qwen3-2507-Modellen — 2x schneller, mit 70 % weniger VRAM und 8x längeren Kontextlängen

<a href="#run-qwen3-30b-a3b-2507-tutorials" class="button secondary">30B-A3B ausführen</a><a href="/pages/a1f4ef520ffb1a185e8a6deff4ec2b5569d8f5a7#run-qwen3-235b-a22b-2507-tutorials" class="button secondary">235B-A22B ausführen</a><a href="#fine-tuning-qwen3-2507-with-unsloth" class="button secondary">Qwen3-2507 feinabstimmen</a>

**Unsloth** [**Dynamic 2.0**](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) **GGUFs:**

| Modell                   | GGUFs zum Ausführen:                                                                                                                                          |
| ------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| Qwen3-**4B-2507**        | [Instruct](https://huggingface.co/unsloth/Qwen3-4B-Instruct-2507-GGUF) • [Thinking](https://huggingface.co/unsloth/Qwen3-4B-Thinking-2507-GGUF)               |
| Qwen3-**30B-A3B**-2507   | [Instruct](#llama.cpp-run-qwen3-30b-a3b-instruct-2507-tutorial) • [Thinking](https://huggingface.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF)                 |
| Qwen3-**235B-A22B**-2507 | [Instruct](https://huggingface.co/unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF) • [Thinking](https://huggingface.co/unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF) |

## ⚙️Best Practices

{% hint style="success" %}
Die Einstellungen für das Thinking- und das Instruct-Modell sind unterschiedlich.\
Das Thinking-Modell verwendet temperature = 0.6, das Instruct-Modell verwendet jedoch temperature = 0.7\
Das Thinking-Modell verwendet top\_p = 0.95, das Instruct-Modell verwendet jedoch top\_p = 0.8
{% endhint %}

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:

| Einstellungen für das Instruct-Modell:                                                                                                      | Einstellungen für das Thinking-Modell:                                                                                                      |
| ------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------- |
| <mark style="background-color:blue;">`Temperatur = 0.7`</mark>                                                                              | <mark style="background-color:blue;">`Temperatur = 0.6`</mark>                                                                              |
| `Min_P = 0.00` (llama.cpps Standard ist 0.1)                                                                                                | `Min_P = 0.00` (llama.cpps Standard ist 0.1)                                                                                                |
| `Top_P = 0.80`                                                                                                                              | `Top_P = 0.95`                                                                                                                              |
| `TopK = 20`                                                                                                                                 | `TopK = 20`                                                                                                                                 |
| `presence_penalty = 0.0 bis 2.0` (der Standard von llama.cpp deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie es verwenden) | `presence_penalty = 0.0 bis 2.0` (der Standard von llama.cpp deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie es verwenden) |

**Ausreichende Ausgabelänge**: Verwenden Sie eine Ausgabelänge von `32,768` Tokens für die meisten Abfragen, was für die meisten Abfragen ausreichend ist.

Chat-Vorlage für beide Thinking-Modelle (Thinking hat `<think></think>`) und Instruct ist unten:

```
<|im_start|>user
Hallo!<|im_end|>
<|im_start|>assistant
Was ist 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant
```

## 📖 Tutorials zum Ausführen von Qwen3-30B-A3B-2507

Unten finden Sie Anleitungen für die [Thinking](#thinking-qwen3-30b-a3b-thinking-2507) und [Instruct](#instruct-qwen3-30b-a3b-instruct-2507) Versionen des Modells.

### Instruct: Qwen3-30B-A3B-Instruct-2507

Da dies ein Nicht-Thinking-Modell ist, muss `thinking=False` nicht gesetzt werden, und das Modell erzeugt keine `<think> </think>` Blöcke.

#### ⚙️Best Practices

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

* Wir empfehlen die Verwendung von `temperature=0.7, top_p=0.8, top_k=20 und min_p=0.0` `presence_penalty` zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
* **`temperature = 0.7`**
* `top_k = 20`
* `min_p = 0.00` (llama.cpps Standard ist 0.1)
* **`top_p = 0.80`**
* `presence_penalty = 0.0 bis 2.0` (der Standard von llama.cpp deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie es verwenden) Probieren Sie zum Beispiel 1.0 aus.
* Unterstützt nativ bis zu `262,144` Kontext, aber Sie können es auf `32,768` Tokens einstellen, um weniger RAM zu verbrauchen

#### 🦙 Ollama: Tutorial zum Ausführen von Qwen3-30B-A3B-Instruct-2507

1. Installieren `ollama` falls Sie das nicht schon getan haben! Sie können nur Modelle bis zu 32B Größe ausführen.

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

2. Führen Sie das Modell aus! Beachten Sie, dass Sie `ollama serve`in einem anderen Terminal aufrufen können, falls es fehlschlägt! Wir enthalten alle unsere Korrekturen und vorgeschlagenen Parameter (Temperatur usw.) in `params` in unserem Hugging-Face-Upload!

```bash
ollama run hf.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:UD-Q4_K_XL
```

#### :sparkles: Llama.cpp: Tutorial zum Ausführen von Qwen3-30B-A3B-Instruct-2507

1. Erhalten Sie das neueste `llama.cpp` standardmäßig [GitHub hier](https://github.com/ggml-org/llama.cpp). Sie können auch die Build-Anweisungen unten befolgen. Ändern Sie `-DGGML_CUDA=ON` auf `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie üblich fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Sie können direkt von HuggingFace herunterladen über:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0
   ```
3. Laden Sie das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Sie können UD\_Q4\_K\_XL oder andere quantisierte Versionen wählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### Thinking: Qwen3-30B-A3B-Thinking-2507

Dieses Modell unterstützt nativ nur den Thinking-Modus und ein Kontextfenster von 256K. Die Standard-Chat-Vorlage fügt `<think>` automatisch hinzu, sodass Sie möglicherweise nur einen schließenden `</think>` Tag in der Ausgabe sehen.

#### ⚙️Best Practices

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

* Wir empfehlen die Verwendung von `temperature=0.6, top_p=0.95, top_k=20 und min_p=0.0` `presence_penalty` zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` (llama.cpps Standard ist 0.1)
* **`top_p = 0.95`**
* `presence_penalty = 0.0 bis 2.0` (der Standard von llama.cpp deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie es verwenden) Probieren Sie zum Beispiel 1.0 aus.
* Unterstützt nativ bis zu `262,144` Kontext, aber Sie können es auf `32,768` Tokens einstellen, um weniger RAM zu verbrauchen

#### 🦙 Ollama: Tutorial zum Ausführen von Qwen3-30B-A3B-Instruct-2507

1. Installieren `ollama` falls Sie das nicht schon getan haben! Sie können nur Modelle bis zu 32B Größe ausführen. Um die vollständigen 235B-A22B-Modelle auszuführen, [siehe hier](#run-qwen3-235b-a22b-instruct-2507).

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

2. Führen Sie das Modell aus! Beachten Sie, dass Sie `ollama serve`in einem anderen Terminal aufrufen können, falls es fehlschlägt! Wir enthalten alle unsere Korrekturen und vorgeschlagenen Parameter (Temperatur usw.) in `params` in unserem Hugging-Face-Upload!

```bash
ollama run hf.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:UD-Q4_K_XL
```

#### :sparkles: Llama.cpp: Tutorial zum Ausführen von Qwen3-30B-A3B-Instruct-2507

1. Erhalten Sie das neueste `llama.cpp` standardmäßig [GitHub hier](https://github.com/ggml-org/llama.cpp). Sie können auch die Build-Anweisungen unten befolgen. Ändern Sie `-DGGML_CUDA=ON` auf `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie üblich fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Sie können direkt von Hugging Face herunterladen über:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0
   ```
3. Laden Sie das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Sie können UD\_Q4\_K\_XL oder andere quantisierte Versionen wählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

## 📖 Ausführen **Qwen3-235B-A22B-2507** Tutorials

Unten finden Sie Anleitungen für die [Thinking](#run-qwen3-235b-a22b-thinking-via-llama.cpp) und [Instruct](#run-qwen3-235b-a22b-instruct-via-llama.cpp) Versionen des Modells.

### Thinking: Qwen3-**235B-A22B**-Thinking-2507

Dieses Modell unterstützt nativ nur den Thinking-Modus und ein Kontextfenster von 256K. Die Standard-Chat-Vorlage fügt `<think>` automatisch hinzu, sodass Sie möglicherweise nur einen schließenden `</think>` Tag in der Ausgabe sehen.

#### :gear: Best Practices

Um optimale Leistung zu erzielen, empfiehlt Qwen für das Thinking-Modell diese Einstellungen:

* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` (llama.cpps Standard ist 0.1)
* `top_p = 0.95`
* `presence_penalty = 0.0 bis 2.0` (der Standard von llama.cpp deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie es verwenden) Probieren Sie zum Beispiel 1.0 aus.
* **Ausreichende Ausgabelänge**: Verwenden Sie eine Ausgabelänge von `32,768` Tokens für die meisten Abfragen, was für die meisten Abfragen ausreichend ist.

#### :sparkles:Führen Sie Qwen3-235B-A22B-Thinking via llama.cpp aus:

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Vielzahl von Optionen verwenden.

{% hint style="success" %}
Wenn Sie eine **vollpräzise unquantisierte Version**möchten, verwenden Sie unsere `Q8_K_XL, Q8_0` oder `BF16` Versionen!
{% endhint %}

1. Erhalten Sie das neueste `llama.cpp` standardmäßig [GitHub hier](https://github.com/ggml-org/llama.cpp). Sie können auch die Build-Anweisungen unten befolgen. Ändern Sie `-DGGML_CUDA=ON` auf `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie üblich fort - Metal-Unterstützung ist standardmäßig aktiviert.

   ```bash
   apt-get update
   apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
   git clone https://github.com/ggml-org/llama.cpp
   cmake llama.cpp -B llama.cpp/build \
       -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
   cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
   cp llama.cpp/build/bin/llama-* llama.cpp
   ```
2. Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von `huggingface_hub` Um llama.cpp direkt zu verwenden, tun Sie Folgendes:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF:Q2_K_XL \
       --ctx-size 16384 \
       --n-gpu-layers 99 \\
       -ot ".ffn_.*_exps.=CPU" \
       --temp 0.6 \
       --min-p 0.0 \
       --top-p 0.95 \
       --top-k 20 \
       --presence-penalty 1.0
   ```
3. Laden Sie das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Sie können UD-Q2\_K\_XL oder andere quantisierte Versionen wählen..

   ```python
   # !pip install huggingface_hub hf_transfer
   import os
   os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal die Rate begrenzen, daher auf 0 setzen, um zu deaktivieren
   from huggingface_hub import snapshot_download
   snapshot_download(
       repo_id = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
       local_dir = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
       allow_patterns = ["*UD-Q2_K_XL*"],
   )
   ```
4. Führen Sie das Modell aus und probieren Sie irgendeinen Prompt aus.
5. Bearbeiten Sie `--threads -1` für die Anzahl der CPU-Threads, `--ctx-size` 262114 für die Kontextlänge, `--n-gpu-layers 99` für GPU-Offloading, wie viele Schichten. Versuchen Sie, dies anzupassen, wenn Ihrem GPU der Speicher ausgeht. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

{% hint style="success" %}
Verwenden Sie `-ot ".ffn_.*_exps.=CPU"` um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf 1 GPU unterbringen und die Generierungsgeschwindigkeit verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten unterzubringen, wenn Sie mehr GPU-Kapazität haben.
{% endhint %}

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Thinking-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \\
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \\
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20
    --presence-penalty 1.0
```

{% endcode %}

### Instruct: Qwen3-**235B-A22B**-Instruct-2507

Da dies ein Nicht-Thinking-Modell ist, muss `thinking=False` nicht gesetzt werden, und das Modell erzeugt keine `<think> </think>` Blöcke.

#### ⚙️Best Practices

Um optimale Leistung zu erzielen, empfehlen wir die folgenden Einstellungen:

**1. Sampling-Parameter**: Wir empfehlen die Verwendung von `temperature=0.7, top_p=0.8, top_k=20 und min_p=0.` `presence_penalty` zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.

2\. **Ausreichende Ausgabelänge**: Wir empfehlen, eine Ausgabelänge von `16,384` Tokens für die meisten Abfragen zu verwenden, was für Instruct-Modelle ausreichend ist.

3\. **Ausgabeformat standardisieren:** Wir empfehlen, Prompts zu verwenden, um Modell-Ausgaben beim Benchmarking zu standardisieren.

* **Matheaufgaben**: Fügen Sie `Bitte schrittweise herleiten und die endgültige Antwort in \boxed{} setzen.` im Prompt ein.
* **Multiple-Choice-Fragen**: Fügen Sie die folgende JSON-Struktur zum Prompt hinzu, um Antworten zu standardisieren: "Bitte geben Sie Ihre Wahl im \`answer\`-Feld nur mit dem Buchstaben der Wahl an, z. B. \`"answer": "C".

#### :sparkles:Führen Sie Qwen3-235B-A22B-Instruct via llama.cpp aus:

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Vielzahl von Optionen verwenden.

{% hint style="info" %}
Wenn Sie eine **vollpräzise unquantisierte Version**möchten, verwenden Sie unsere `Q8_K_XL, Q8_0` oder `BF16` Versionen!
{% endhint %}

1. Holen Sie sich die neueste llama.cpp auf [GitHub](https://github.com/ggml-org/llama.cpp) hier. Sie können auch die Build-Anweisungen unten befolgen. Ändern Sie `-DGGML_CUDA=ON` auf `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie üblich fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2\. Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von `huggingface_hub` Um llama.cpp direkt zu verwenden, tun Sie Folgendes:\\

```bash
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF:Q2_K_XL \
    --ctx-size 16384 \
    --n-gpu-layers 99 \\
    -ot ".ffn_.*_exps.=CPU" \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20 \
    --repeat-penalty 1.0
```

3\. Laden Sie das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Sie können UD-Q2\_K\_XL oder andere quantisierte Versionen wählen..

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal die Rate begrenzen, daher auf 0 setzen, um zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)
```

4\. Führen Sie das Modell aus und probieren Sie irgendeinen Prompt aus. 5. Bearbeiten Sie `--threads -1` für die Anzahl der CPU-Threads, `--ctx-size` 262114 für die Kontextlänge, `--n-gpu-layers 99` für GPU-Offloading, wie viele Schichten. Versuchen Sie, dies anzupassen, wenn Ihrem GPU der Speicher ausgeht. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

{% hint style="success" %}
Verwenden Sie `-ot ".ffn_.*_exps.=CPU"` um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf 1 GPU unterbringen und die Generierungsgeschwindigkeit verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten unterzubringen, wenn Sie mehr GPU-Kapazität haben.
{% endhint %}

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Instruct-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \\
    -ot ".ffn_.*_exps.=CPU" \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20
```

{% endcode %}

### 🛠️ Verbesserung der Generierungsgeschwindigkeit <a href="#improving-generation-speed" id="improving-generation-speed"></a>

Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten auszulagern.

Normalerweise `-ot ".ffn_.*_exps.=CPU"` lagert alle MoE-Schichten auf die CPU aus! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf 1 GPU unterbringen und die Generierungsgeschwindigkeit verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten unterzubringen, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie `-ot ".ffn_(up|down)_exps.=CPU"` Dies lagert die Up- und Down-Projektions-MoE-Schichten aus.

Versuchen Sie `-ot ".ffn_(up)_exps.=CPU"` wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur die Up-Projektions-MoE-Schichten aus.

Sie können auch den Regex anpassen, zum Beispiel `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, jedoch nur ab der 6. Schicht aufwärts.

Der [neueste llama.cpp-Version](https://github.com/ggml-org/llama.cpp/pull/14363) führt außerdem einen High-Throughput-Modus ein. Verwenden Sie `llama-parallel`. Lesen Sie hier mehr darüber [hier](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel). Sie können auch **den KV-Cache auf 4 Bit quantisieren** um beispielsweise die VRAM-/RAM-Bewegung zu reduzieren, was den Generierungsprozess ebenfalls beschleunigen kann. Der [nächste Abschnitt](#how-to-fit-long-context-256k-to-1m) spricht über die KV-Cache-Quantisierung.

### 📐So passt langer Kontext hinein <a href="#how-to-fit-long-context-256k-to-1m" id="how-to-fit-long-context-256k-to-1m"></a>

Um längeren Kontext unterzubringen, können Sie **KV-Cache-Quantisierung** verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generierungsgeschwindigkeit aufgrund reduzierter RAM-/VRAM-Datenbewegung erhöhen. Die erlaubten Optionen für die K-Quantisierung (Standard ist `f16`) umfassen die folgenden.

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

Sie sollten die `_1` Varianten für etwas höhere Genauigkeit verwenden, obwohl sie etwas langsamer sind. Z. B. `q4_1, q5_1` Probieren Sie also `--cache-type-k q4_1`

Sie können auch den V-Cache quantisieren, aber dafür müssen Sie **llama.cpp mit Flash Attention kompilieren** Unterstützung über `-DGGML_CUDA_FA_ALL_QUANTS=ON`, und verwendet `--flash-attn` aktivieren. Nach der Installation von Flash Attention können Sie dann `--cache-type-v q4_1`

## 🦥 Fine-Tuning von Qwen3-2507 mit Unsloth

Unsloth macht [Qwen3](/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune.md#fine-tuning-qwen3-with-unsloth) und Qwen3-2507-Fine-Tuning 2x schneller, verwendet 70 % weniger VRAM und unterstützt 8x längere Kontextlängen. Da Qwen3-2507 nur in einer 30B-Variante veröffentlicht wurde, bedeutet dies, dass Sie etwa eine 40GB A100-GPU benötigen, um das Modell mit QLoRA (4-Bit) feinabzustimmen.

Für ein Notebook benötigen Sie, da das Modell nicht in Colabs kostenlose 16GB-GPUs passt, eine 40GB A100. Sie können unser Conversational-Notebook verwenden, aber den Datensatz durch einen Ihrer Wahl ersetzen. Diesmal müssen Sie das Reasoning nicht in Ihren Datensatz kombinieren, da das Modell kein Reasoning hat.

* [Qwen3 (14B) Reasoning- + Conversational-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)

Wenn du eine ältere Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:

```bash
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
```

### Fine-Tuning von Qwen3-2507-MOE-Modellen

Die Fine-Tuning-Unterstützung umfasst MOE-Modelle: 30B-A3B und 235B-A22B. Qwen3-30B-A3B läuft mit Unsloth auf 30GB VRAM. Beim Fine-Tuning von MoE ist es wahrscheinlich keine gute Idee, die Router-Schicht feinabzustimmen, daher haben wir sie standardmäßig deaktiviert.

**Qwen3-2507-4B-Notebooks für:** [Thinking](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(4B\)-Thinking.ipynb) und [Instruct](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(4B\)-Instruct.ipynb)

Das 30B-A3B passt in 30GB VRAM, aber Ihnen könnten RAM oder Speicherplatz fehlen, da das vollständige 16-Bit-Modell heruntergeladen und für das QLoRA-Fine-Tuning unterwegs in 4-Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Import von 4-Bit-BnB-MOE-Modellen. Das betrifft nur MOE-Modelle.

{% hint style="warning" %}
Wenn Sie die MOE-Modelle feinabstimmen, verwenden Sie bitte `FastModel` und nicht `FastLanguageModel`
{% endhint %}

```python
from unsloth import FastModel
import torch
model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B-Instruct-2507",
    max_seq_length = 2048, # Wählen Sie beliebig für langen Kontext!
    load_in_4bit = True,  # 4-Bit-Quantisierung zur Reduzierung des Speicherverbrauchs
    load_in_8bit = False, # [NEU!] Etwas genauer, benötigt 2x Speicher
    full_finetuning = False, # [NEU!] Wir haben jetzt vollständiges Fine-Tuning!
    # token = "hf_...", # verwenden Sie einen, wenn Sie gesperrte Modelle verwenden
)
```

<figure><img src="/files/4e5dde2a6f0fd4718e669087d4bea02fd5dd7bc4" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune/qwen3-2507.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
