# Qwen3-2507: Anleitung zum lokalen Ausführen

Qwen veröffentlichte im Juli 2025 (2507) Updates für ihre [Qwen3](/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune.md) 4B-, 30B- und 235B-Modelle und führte sowohl „Thinking“- als auch „Non-Thinking“-Varianten ein. Das Non-Thinking '**Qwen3-30B-A3B-Instruct-2507**' und '**Qwen3-235B-A22B-Instruct-2507'** verfügt über ein 256K-Kontextfenster, verbesserte Anweisungsfolgebefolgung, mehrsprachige Fähigkeiten und Alignment.

Die Thinking-Modelle '**Qwen3-30B-A3B-Thinking-2507**' und '**Qwen3-235B-A22B-Thinking-2507**' zeichnen sich durch Schlussfolgerungsfähigkeiten aus; das 235B erreicht SOTA-Ergebnisse in Logik, Mathematik, Naturwissenschaften, Programmierung und fortgeschrittenen akademischen Aufgaben.

[Unsloth](https://github.com/unslothai/unsloth) unterstützt jetzt auch Fine-Tuning und [Verstärkungslernen (Reinforcement Learning, RL)](/docs/de/loslegen/reinforcement-learning-rl-guide.md) der Qwen3-2507-Modelle — 2x schneller, mit 70% weniger VRAM und 8x längeren Kontextlängen

<a href="#run-qwen3-30b-a3b-2507-tutorials" class="button secondary">30B-A3B ausführen</a><a href="/pages/a1f4ef520ffb1a185e8a6deff4ec2b5569d8f5a7#run-qwen3-235b-a22b-2507-tutorials" class="button secondary">235B-A22B ausführen</a><a href="#fine-tuning-qwen3-2507-with-unsloth" class="button secondary">Qwen3-2507 feinabstimmen</a>

**Unsloth** [**Dynamic 2.0**](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) **GGUFs:**

| Modell                   | GGUFs zum Ausführen:                                                                                                                                          |
| ------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| Qwen3-**4B-2507**        | [Instruct](https://huggingface.co/unsloth/Qwen3-4B-Instruct-2507-GGUF) • [Thinking](https://huggingface.co/unsloth/Qwen3-4B-Thinking-2507-GGUF)               |
| Qwen3-**30B-A3B**-2507   | [Instruct](#llama.cpp-run-qwen3-30b-a3b-instruct-2507-tutorial) • [Thinking](https://huggingface.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF)                 |
| Qwen3-**235B-A22B**-2507 | [Instruct](https://huggingface.co/unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF) • [Thinking](https://huggingface.co/unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF) |

## ⚙️Beste Praktiken

{% hint style="success" %}
Die Einstellungen für das Thinking- und das Instruct-Modell sind unterschiedlich.\
Das Thinking-Modell verwendet temperature = 0.6, das Instruct-Modell verwendet jedoch temperature = 0.7\
Das Thinking-Modell verwendet top\_p = 0.95, das Instruct-Modell verwendet jedoch top\_p = 0.8
{% endhint %}

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:

| Instruct-Modell-Einstellungen:                                                                                                        | Thinking-Modell-Einstellungen:                                                                                                        |
| ------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------- |
| <mark style="background-color:blue;">`Temperatur = 0,7`</mark>                                                                        | <mark style="background-color:blue;">`Temperature = 0.6`</mark>                                                                       |
| `Min_P = 0.00` (llama.cpps Standard ist 0.1)                                                                                          | `Min_P = 0.00` (llama.cpps Standard ist 0.1)                                                                                          |
| `Top_P = 0.80`                                                                                                                        | `Top_P = 0,95`                                                                                                                        |
| `TopK = 20`                                                                                                                           | `TopK = 20`                                                                                                                           |
| `presence_penalty = 0.0 bis 2.0` (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) | `presence_penalty = 0.0 bis 2.0` (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) |

**Angemessene Ausgabelänge**: Verwenden Sie eine Ausgabelänge von `32,768` Token für die meisten Anfragen, was für die meisten Anfragen ausreichend ist.

Chat-Vorlage für beide: Thinking (Thinking hat `<think></think>`) und Instruct ist unten:

```
<|im_start|>user
Hey there!<|im_end|>
<|im_start|>assistant
What is 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant
```

## 📖 Qwen3-30B-A3B-2507 Tutorials ausführen

Unten stehen Anleitungen für die [Thinking](#thinking-qwen3-30b-a3b-thinking-2507) und [Instruct](#instruct-qwen3-30b-a3b-instruct-2507) Versionen des Modells.

### Instruct: Qwen3-30B-A3B-Instruct-2507

Da dies ein Non-Thinking-Modell ist, ist es nicht notwendig, `thinking=False` und das Modell erzeugt nicht `<think> </think>` Blöcke.

#### ⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

* Wir empfehlen die Verwendung von `temperature=0.7, top_p=0.8, top_k=20 und min_p=0.0` `presence_penalty` zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
* **`temperature = 0.7`**
* `top_k = 20`
* `min_p = 0.00` (llama.cpps Standard ist 0.1)
* **`top_p = 0.80`**
* `presence_penalty = 0.0 bis 2.0` (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.
* Unterstützt bis zu `262,144` Kontext nativ, aber Sie können ihn auf `32,768` Token für weniger RAM-Verbrauch setzen

#### 🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

1. In Ollama ausführen `Installieren Sie` falls Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen.

```bash
apt-get update
siehe hier
apt-get install pciutils -y
```

2. curl -fsSL <https://ollama.com/install.sh> | sh `Führen Sie das Modell aus! Beachten Sie, dass Sie`ollama serve `in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in` params

```bash
ollama run hf.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:UD-Q4_K_XL
```

#### :sparkles: Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

1. Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den Build-Anweisungen unten folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Sie können direkt von HuggingFace ziehen via:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0
   ```
3. Laden Sie das Modell herunter (nach der Installation `pip install huggingface_hub hf_transfer`  ). Sie können UD\_Q4\_K\_XL oder andere quantisierte Versionen wählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### Thinking: Qwen3-30B-A3B-Thinking-2507

Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chat-Vorlage fügt `<think>` automatisch hinzu, sodass Sie möglicherweise nur ein schließendes `</think>` Tag in der Ausgabe sehen.

#### ⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

* Wir empfehlen die Verwendung von `temperature=0.6, top_p=0.95, top_k=20 und min_p=0.0` `presence_penalty` zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` (llama.cpps Standard ist 0.1)
* **`top_p = 0.95`**
* `presence_penalty = 0.0 bis 2.0` (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.
* Unterstützt bis zu `262,144` Kontext nativ, aber Sie können ihn auf `32,768` Token für weniger RAM-Verbrauch setzen

#### 🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

1. In Ollama ausführen `Installieren Sie` falls Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen. Um die vollständigen 235B-A22B-Modelle auszuführen, [falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,](#run-qwen3-235b-a22b-instruct-2507).

```bash
apt-get update
siehe hier
apt-get install pciutils -y
```

2. curl -fsSL <https://ollama.com/install.sh> | sh `Führen Sie das Modell aus! Beachten Sie, dass Sie`ollama serve `in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in` params

```bash
ollama run hf.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:UD-Q4_K_XL
```

#### :sparkles: Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

1. Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den Build-Anweisungen unten folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Sie können direkt von Hugging Face ziehen via:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0
   ```
3. Laden Sie das Modell herunter (nach der Installation `pip install huggingface_hub hf_transfer`  ). Sie können UD\_Q4\_K\_XL oder andere quantisierte Versionen wählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

## 📖 Ausführen **Qwen3-235B-A22B-2507** Tutorials

Unten stehen Anleitungen für die [Thinking](#run-qwen3-235b-a22b-thinking-via-llama.cpp) und [Instruct](#run-qwen3-235b-a22b-instruct-via-llama.cpp) Versionen des Modells.

### Thinking: Qwen3-**235B-A22B**-Thinking-2507

Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chat-Vorlage fügt `<think>` automatisch hinzu, sodass Sie möglicherweise nur ein schließendes `</think>` Tag in der Ausgabe sehen.

#### :gear: Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen für das Thinking-Modell:

* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` (llama.cpps Standard ist 0.1)
* `top_p = 0.95`
* `presence_penalty = 0.0 bis 2.0` (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.
* **Angemessene Ausgabelänge**: Verwenden Sie eine Ausgabelänge von `32,768` Token für die meisten Anfragen, was für die meisten Anfragen ausreichend ist.

#### :sparkles:Qwen3-235B-A22B-Thinking via llama.cpp ausführen:

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.

{% hint style="success" %}
Wenn Sie eine **vollpräzise unquantisierte Version**, verwenden Sie unser `Q8_K_XL, Q8_0` oder `BF16` Versionen!
{% endhint %}

1. Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den Build-Anweisungen unten folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

   ```bash
   apt-get update
   apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
   git clone https://github.com/ggml-org/llama.cpp
   cmake llama.cpp -B llama.cpp/build \
       -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
   cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
   cp llama.cpp/build/bin/llama-* llama.cpp
   ```
2. Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von `huggingface_hub` Um llama.cpp direkt zu verwenden, führen Sie aus:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF:Q2_K_XL \
       --ctx-size 16384 \
       --n-gpu-layers 99 \
       -ot ".ffn_.*_exps.=CPU" \
       --temp 0.6 \
       --min-p 0.0 \
       --top-p 0.95 \
       --top-k 20 \
       --presence-penalty 1.0
   ```
3. Laden Sie das Modell herunter (nach der Installation `pip install huggingface_hub hf_transfer` ). Du kannst UD-Q2\_K\_XL oder andere quantisierte Versionen wählen..

   ```python
   # !pip install huggingface_hub hf_transfer
   import os
   os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal Ratenbegrenzung verursachen, also auf 0 setzen, um zu deaktivieren
   from huggingface_hub import snapshot_download
   snapshot_download(
       repo_id = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
       local_dir = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
       allow_patterns = ["*UD-Q2_K_XL*"],
   )
   ```
4. Führe das Modell aus und probiere beliebige Prompts.
5. Bearbeiten `--threads -1` --threads 32 `--ctx-size` 262114 für Kontextlänge, `--n-gpu-layers 99` --n-gpu-layers 2

{% hint style="success" %}
Verwende `-ot ".ffn_.*_exps.=CPU"` um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.
{% endhint %}

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Thinking-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20
    --presence-penalty 1.0
```

{% endcode %}

### Instruct: Qwen3-**235B-A22B**-Instruct-2507

Da dies ein Non-Thinking-Modell ist, ist es nicht notwendig, `thinking=False` und das Modell erzeugt nicht `<think> </think>` Blöcke.

#### ⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfehlen wir die folgenden Einstellungen:

**1. Sampling-Parameter**: Wir schlagen vor, `temperature=0.7, top_p=0.8, top_k=20 und min_p=0.` `presence_penalty` zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.

2\. **Angemessene Ausgabelänge**: Wir empfehlen die Verwendung einer Ausgabelänge von `16,384` Token für die meisten Anfragen, was für Instruct-Modelle ausreichend ist.

3\. **Ausgabeformat standardisieren:** Wir empfehlen die Verwendung von Prompts, um Modell-Ausgaben beim Benchmarking zu standardisieren.

* **Mathematikaufgaben**: Einschließen `Bitte denken Sie Schritt für Schritt nach und geben Sie Ihre endgültige Antwort innerhalb von \boxed{} an.` im Prompt.
* **Multiple-Choice-Fragen**: Fügen Sie die folgende JSON-Struktur in den Prompt ein, um Antworten zu standardisieren: "Bitte zeigen Sie Ihre Wahl im Feld \`answer\` nur mit dem Buchstaben der Wahl, z. B. \`"answer": "C".

#### :sparkles:Qwen3-235B-A22B-Instruct via llama.cpp ausführen:

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.

{% hint style="info" %}
Wenn Sie eine **vollpräzise unquantisierte Version**, verwenden Sie unser `Q8_K_XL, Q8_0` oder `BF16` Versionen!
{% endhint %}

1. Holen Sie sich das neueste llama.cpp auf [GitHub](https://github.com/ggml-org/llama.cpp) hier. Sie können auch den untenstehenden Build-Anweisungen folgen. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2\. Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von `huggingface_hub` Um llama.cpp direkt zu verwenden, führen Sie aus:\\

```bash
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF:Q2_K_XL \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20 \
    --repeat-penalty 1.0
```

3\. Laden Sie das Modell herunter via (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst UD-Q2\_K\_XL oder andere quantisierte Versionen wählen..

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal Ratenbegrenzung verursachen, also auf 0 setzen, um zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)
```

4\. Führen Sie das Modell aus und probieren Sie beliebige Prompts. 5. Bearbeiten Sie `--threads -1` --threads 32 `--ctx-size` 262114 für Kontextlänge, `--n-gpu-layers 99` --n-gpu-layers 2

{% hint style="success" %}
Verwende `-ot ".ffn_.*_exps.=CPU"` um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.
{% endhint %}

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Instruct-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20
```

{% endcode %}

### 🛠️ Generationsgeschwindigkeit verbessern <a href="#improving-generation-speed" id="improving-generation-speed"></a>

Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten selbst auszulagern.

Normalerweise, `-ot ".ffn_.*_exps.=CPU"` lagert alle MoE-Schichten auf die CPU aus! Dies ermöglicht effektiv, alle Nicht-MoE-Schichten auf 1 GPU unterzubringen und verbessert die Generationsgeschwindigkeit. Sie können den Regex-Ausdruck anpassen, um mehr Schichten unterzubringen, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie `-ot ".ffn_(up|down)_exps.=CPU"` Dies lagert Up- und Down-Projektions-MoE-Schichten aus.

Versuchen Sie `-ot ".ffn_(up)_exps.=CPU"` wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur Up-Projektions-MoE-Schichten aus.

Sie können auch den Regex anpassen, zum Beispiel `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, aber nur ab der 6. Schicht.

Die [neueste llama.cpp-Version](https://github.com/ggml-org/llama.cpp/pull/14363) führt außerdem einen Hochdurchsatzmodus ein. Verwenden Sie `llama-parallel`. Lesen Sie mehr darüber [hier](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel). Sie können auch **den KV-Cache z. B. auf 4 Bit quantisieren,** um z. B. VRAM-/RAM-Bewegungen zu reduzieren, was den Generationsprozess ebenfalls beschleunigen kann. Die [nächste Abschnitt](#how-to-fit-long-context-256k-to-1m) bespricht die KV-Cache-Quantisierung.

### 📐Wie man langen Kontext unterbringt <a href="#how-to-fit-long-context-256k-to-1m" id="how-to-fit-long-context-256k-to-1m"></a>

Um längeren Kontext unterzubringen, können Sie **KV-Cache-Quantisierung** verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generationsgeschwindigkeit erhöhen aufgrund reduzierter RAM-/VRAM-Datenbewegungen. Die erlaubten Optionen für K-Quantisierung (Standard ist `f16`) umfassen die untenstehenden.

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

Sie sollten die `_1` Varianten für etwas erhöhte Genauigkeit verwenden, obwohl sie etwas langsamer sind. Zum Beispiel `q4_1, q5_1` Probieren Sie also `--cache-type-k q4_1`

Sie können auch den V-Cache quantisieren, aber Sie müssen **llama.cpp mit Flash Attention kompilieren** Unterstützung via `-DGGML_CUDA_FA_ALL_QUANTS=ON`, und verwenden `--flash-attn` um es zu aktivieren. Nach der Installation von Flash Attention können Sie dann `--cache-type-v q4_1`

## 🦥 Qwen3-2507 mit Unsloth feinabstimmen

Unsloth macht [Qwen3](/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune.md#fine-tuning-qwen3-with-unsloth) und Qwen3-2507-Fine-Tuning 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Da Qwen3-2507 nur in einer 30B-Variante veröffentlicht wurde, bedeutet dies, dass Sie etwa eine 40GB A100-GPU benötigen, um das Modell mit QLoRA (4-Bit) feinabzustimmen.

Für ein Notebook: Da das Modell nicht in Colabs kostenlose 16GB-GPUs passt, müssen Sie eine 40GB A100 verwenden. Sie können unser Conversational-Notebook verwenden, aber den Datensatz durch einen Ihrer Wahl ersetzen. Diesmal müssen Sie in Ihrem Datensatz kein kombiniertes Reasoning aufnehmen, da das Modell kein Reasoning hat.

* [Qwen3 (14B) Reasoning- + Conversational-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)

Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:

```bash
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
```

### Qwen3-2507 MOE-Modelle Fine-Tuning

Das Fine-Tuning unterstützt MOE-Modelle: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit 30GB VRAM mit Unsloth. Beim Fine-Tuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht feinzuabstimmen, daher haben wir sie standardmäßig deaktiviert.

**Qwen3-2507-4B-Notebooks für:** [Thinking](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(4B\)-Thinking.ipynb) und [Instruct](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(4B\)-Instruct.ipynb)

Der 30B-A3B passt in 30GB VRAM, aber Sie könnten RAM- oder Festplattenspeicher vermissen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Fine-Tuning on-the-fly in 4-Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Import von 4-Bit BnB MOE-Modellen. Dies betrifft nur MOE-Modelle.

{% hint style="warning" %}
Wenn Sie die MOE-Modelle feinabstimmen, verwenden Sie bitte `FastModel` und nicht `FastLanguageModel`
{% endhint %}

```python
from unsloth import FastModel
import torch
model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B-Instruct-2507",
    max_seq_length = 2048, # Wählen Sie beliebige Werte für langen Kontext!
    load_in_4bit = True,  # 4-Bit-Quantisierung zur Reduzierung des Speichers
    load_in_8bit = False, # [NEU!] Etwas genauer, verwendet 2x Speicher
    full_finetuning = False, # [NEU!] Wir haben jetzt vollständige Feinabstimmung!
    # token = "hf_...", # verwenden Sie einen, wenn Sie gegatterte Modelle verwenden
)
```

<figure><img src="/files/4e5dde2a6f0fd4718e669087d4bea02fd5dd7bc4" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune/qwen3-2507.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
