# Qwen3-2507: Anleitung zum lokalen Ausführen

Qwen veröffentlichte im Juli 2025 (2507) Updates für ihre [Qwen3](https://unsloth.ai/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune) 4B-, 30B- und 235B-Modelle und führte sowohl „Thinking“- als auch „Non-Thinking“-Varianten ein. Das Non-Thinking '**Qwen3-30B-A3B-Instruct-2507**' und '**Qwen3-235B-A22B-Instruct-2507'** verfügt über ein 256K-Kontextfenster, verbesserte Anweisungsfolgebefolgung, mehrsprachige Fähigkeiten und Alignment.

Die Thinking-Modelle '**Qwen3-30B-A3B-Thinking-2507**' und '**Qwen3-235B-A22B-Thinking-2507**' zeichnen sich durch Schlussfolgerungsfähigkeiten aus; das 235B erreicht SOTA-Ergebnisse in Logik, Mathematik, Naturwissenschaften, Programmierung und fortgeschrittenen akademischen Aufgaben.

[Unsloth](https://github.com/unslothai/unsloth) unterstützt jetzt auch Fine-Tuning und [Verstärkungslernen (Reinforcement Learning, RL)](https://unsloth.ai/docs/de/loslegen/reinforcement-learning-rl-guide) der Qwen3-2507-Modelle — 2x schneller, mit 70% weniger VRAM und 8x längeren Kontextlängen

<a href="#run-qwen3-30b-a3b-2507-tutorials" class="button secondary">30B-A3B ausführen</a><a href="#run-qwen3-235b-a22b-2507-tutorials" class="button secondary">235B-A22B ausführen</a><a href="#fine-tuning-qwen3-2507-with-unsloth" class="button secondary">Qwen3-2507 feinabstimmen</a>

**Unsloth** [**Dynamic 2.0**](https://unsloth.ai/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs) **GGUFs:**

| Modell                   | GGUFs zum Ausführen:                                                                                                                                          |
| ------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| Qwen3-**4B-2507**        | [Instruct](https://huggingface.co/unsloth/Qwen3-4B-Instruct-2507-GGUF) • [Thinking](https://huggingface.co/unsloth/Qwen3-4B-Thinking-2507-GGUF)               |
| Qwen3-**30B-A3B**-2507   | [Instruct](#llama.cpp-run-qwen3-30b-a3b-instruct-2507-tutorial) • [Thinking](https://huggingface.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF)                 |
| Qwen3-**235B-A22B**-2507 | [Instruct](https://huggingface.co/unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF) • [Thinking](https://huggingface.co/unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF) |

## ⚙️Beste Praktiken

{% hint style="success" %}
Die Einstellungen für das Thinking- und das Instruct-Modell sind unterschiedlich.\
Das Thinking-Modell verwendet temperature = 0.6, das Instruct-Modell verwendet jedoch temperature = 0.7\
Das Thinking-Modell verwendet top\_p = 0.95, das Instruct-Modell verwendet jedoch top\_p = 0.8
{% endhint %}

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:

| Instruct-Modell-Einstellungen:                                                                                                        | Thinking-Modell-Einstellungen:                                                                                                        |
| ------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------- |
| <mark style="background-color:blue;">`Temperatur = 0,7`</mark>                                                                        | <mark style="background-color:blue;">`Temperature = 0.6`</mark>                                                                       |
| `Min_P = 0.00` (llama.cpps Standard ist 0.1)                                                                                          | `Min_P = 0.00` (llama.cpps Standard ist 0.1)                                                                                          |
| `Top_P = 0.80`                                                                                                                        | `Top_P = 0,95`                                                                                                                        |
| `TopK = 20`                                                                                                                           | `TopK = 20`                                                                                                                           |
| `presence_penalty = 0.0 bis 2.0` (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) | `presence_penalty = 0.0 bis 2.0` (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) |

**Angemessene Ausgabelänge**: Verwenden Sie eine Ausgabelänge von `32,768` Token für die meisten Anfragen, was für die meisten Anfragen ausreichend ist.

Chat-Vorlage für beide: Thinking (Thinking hat `<think></think>`) und Instruct ist unten:

```
<|im_start|>user
Hey there!<|im_end|>
<|im_start|>assistant
What is 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant
```

## 📖 Qwen3-30B-A3B-2507 Tutorials ausführen

Unten stehen Anleitungen für die [Thinking](#thinking-qwen3-30b-a3b-thinking-2507) und [Instruct](#instruct-qwen3-30b-a3b-instruct-2507) Versionen des Modells.

### Instruct: Qwen3-30B-A3B-Instruct-2507

Da dies ein Non-Thinking-Modell ist, ist es nicht notwendig, `thinking=False` und das Modell erzeugt nicht `<think> </think>` Blöcke.

#### ⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

* Wir empfehlen die Verwendung von `temperature=0.7, top_p=0.8, top_k=20 und min_p=0.0` `presence_penalty` zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
* **`temperature = 0.7`**
* `top_k = 20`
* `min_p = 0.00` (llama.cpps Standard ist 0.1)
* **`top_p = 0.80`**
* `presence_penalty = 0.0 bis 2.0` (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.
* Unterstützt bis zu `262,144` Kontext nativ, aber Sie können ihn auf `32,768` Token für weniger RAM-Verbrauch setzen

#### 🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

1. In Ollama ausführen `Installieren Sie` falls Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen.

```bash
apt-get update
siehe hier
apt-get install pciutils -y
```

2. curl -fsSL <https://ollama.com/install.sh> | sh `Führen Sie das Modell aus! Beachten Sie, dass Sie`ollama serve `in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in` params

```bash
ollama run hf.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:UD-Q4_K_XL
```

#### :sparkles: Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

1. Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den Build-Anweisungen unten folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Sie können direkt von HuggingFace ziehen via:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0
   ```
3. Laden Sie das Modell herunter (nach der Installation `pip install huggingface_hub hf_transfer`  ). Sie können UD\_Q4\_K\_XL oder andere quantisierte Versionen wählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### Thinking: Qwen3-30B-A3B-Thinking-2507

Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chat-Vorlage fügt `<think>` automatisch hinzu, sodass Sie möglicherweise nur ein schließendes `</think>` Tag in der Ausgabe sehen.

#### ⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

* Wir empfehlen die Verwendung von `temperature=0.6, top_p=0.95, top_k=20 und min_p=0.0` `presence_penalty` zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` (llama.cpps Standard ist 0.1)
* **`top_p = 0.95`**
* `presence_penalty = 0.0 bis 2.0` (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.
* Unterstützt bis zu `262,144` Kontext nativ, aber Sie können ihn auf `32,768` Token für weniger RAM-Verbrauch setzen

#### 🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

1. In Ollama ausführen `Installieren Sie` falls Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen. Um die vollständigen 235B-A22B-Modelle auszuführen, [falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,](#run-qwen3-235b-a22b-instruct-2507).

```bash
apt-get update
siehe hier
apt-get install pciutils -y
```

2. curl -fsSL <https://ollama.com/install.sh> | sh `Führen Sie das Modell aus! Beachten Sie, dass Sie`ollama serve `in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in` params

```bash
ollama run hf.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:UD-Q4_K_XL
```

#### :sparkles: Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

1. Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den Build-Anweisungen unten folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Sie können direkt von Hugging Face ziehen via:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0
   ```
3. Laden Sie das Modell herunter (nach der Installation `pip install huggingface_hub hf_transfer`  ). Sie können UD\_Q4\_K\_XL oder andere quantisierte Versionen wählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

## 📖 Ausführen **Qwen3-235B-A22B-2507** Tutorials

Unten stehen Anleitungen für die [Thinking](#run-qwen3-235b-a22b-thinking-via-llama.cpp) und [Instruct](#run-qwen3-235b-a22b-instruct-via-llama.cpp) Versionen des Modells.

### Thinking: Qwen3-**235B-A22B**-Thinking-2507

Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chat-Vorlage fügt `<think>` automatisch hinzu, sodass Sie möglicherweise nur ein schließendes `</think>` Tag in der Ausgabe sehen.

#### :gear: Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen für das Thinking-Modell:

* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` (llama.cpps Standard ist 0.1)
* `top_p = 0.95`
* `presence_penalty = 0.0 bis 2.0` (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.
* **Angemessene Ausgabelänge**: Verwenden Sie eine Ausgabelänge von `32,768` Token für die meisten Anfragen, was für die meisten Anfragen ausreichend ist.

#### :sparkles:Qwen3-235B-A22B-Thinking via llama.cpp ausführen:

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.

{% hint style="success" %}
Wenn Sie eine **vollpräzise unquantisierte Version**, verwenden Sie unser `Q8_K_XL, Q8_0` oder `BF16` Versionen!
{% endhint %}

1. Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den Build-Anweisungen unten folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

   ```bash
   apt-get update
   apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
   git clone https://github.com/ggml-org/llama.cpp
   cmake llama.cpp -B llama.cpp/build \
       -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
   cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
   cp llama.cpp/build/bin/llama-* llama.cpp
   ```
2. Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von `huggingface_hub` Um llama.cpp direkt zu verwenden, führen Sie aus:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF:Q2_K_XL \
       --ctx-size 16384 \
       --n-gpu-layers 99 \
       -ot ".ffn_.*_exps.=CPU" \
       --temp 0.6 \
       --min-p 0.0 \
       --top-p 0.95 \
       --top-k 20 \
       --presence-penalty 1.0
   ```
3. Laden Sie das Modell herunter (nach der Installation `pip install huggingface_hub hf_transfer` ). Du kannst UD-Q2\_K\_XL oder andere quantisierte Versionen wählen..

   ```python
   # !pip install huggingface_hub hf_transfer
   import os
   os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal Ratenbegrenzung verursachen, also auf 0 setzen, um zu deaktivieren
   from huggingface_hub import snapshot_download
   snapshot_download(
       repo_id = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
       local_dir = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
       allow_patterns = ["*UD-Q2_K_XL*"],
   )
   ```
4. Führe das Modell aus und probiere beliebige Prompts.
5. Bearbeiten `--threads -1` --threads 32 `--ctx-size` 262114 für Kontextlänge, `--n-gpu-layers 99` --n-gpu-layers 2

{% hint style="success" %}
Verwende `-ot ".ffn_.*_exps.=CPU"` um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.
{% endhint %}

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Thinking-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20
    --presence-penalty 1.0
```

{% endcode %}

### Instruct: Qwen3-**235B-A22B**-Instruct-2507

Da dies ein Non-Thinking-Modell ist, ist es nicht notwendig, `thinking=False` und das Modell erzeugt nicht `<think> </think>` Blöcke.

#### ⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfehlen wir die folgenden Einstellungen:

**1. Sampling-Parameter**: Wir schlagen vor, `temperature=0.7, top_p=0.8, top_k=20 und min_p=0.` `presence_penalty` zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.

2\. **Angemessene Ausgabelänge**: Wir empfehlen die Verwendung einer Ausgabelänge von `16,384` Token für die meisten Anfragen, was für Instruct-Modelle ausreichend ist.

3\. **Ausgabeformat standardisieren:** Wir empfehlen die Verwendung von Prompts, um Modell-Ausgaben beim Benchmarking zu standardisieren.

* **Mathematikaufgaben**: Einschließen `Bitte denken Sie Schritt für Schritt nach und geben Sie Ihre endgültige Antwort innerhalb von \boxed{} an.` im Prompt.
* **Multiple-Choice-Fragen**: Fügen Sie die folgende JSON-Struktur in den Prompt ein, um Antworten zu standardisieren: "Bitte zeigen Sie Ihre Wahl im Feld \`answer\` nur mit dem Buchstaben der Wahl, z. B. \`"answer": "C".

#### :sparkles:Qwen3-235B-A22B-Instruct via llama.cpp ausführen:

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.

{% hint style="info" %}
Wenn Sie eine **vollpräzise unquantisierte Version**, verwenden Sie unser `Q8_K_XL, Q8_0` oder `BF16` Versionen!
{% endhint %}

1. Holen Sie sich das neueste llama.cpp auf [GitHub](https://github.com/ggml-org/llama.cpp) hier. Sie können auch den untenstehenden Build-Anweisungen folgen. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2\. Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von `huggingface_hub` Um llama.cpp direkt zu verwenden, führen Sie aus:\\

```bash
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF:Q2_K_XL \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20 \
    --repeat-penalty 1.0
```

3\. Laden Sie das Modell herunter via (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst UD-Q2\_K\_XL oder andere quantisierte Versionen wählen..

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal Ratenbegrenzung verursachen, also auf 0 setzen, um zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)
```

4\. Führen Sie das Modell aus und probieren Sie beliebige Prompts. 5. Bearbeiten Sie `--threads -1` --threads 32 `--ctx-size` 262114 für Kontextlänge, `--n-gpu-layers 99` --n-gpu-layers 2

{% hint style="success" %}
Verwende `-ot ".ffn_.*_exps.=CPU"` um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.
{% endhint %}

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Instruct-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20
```

{% endcode %}

### 🛠️ Generationsgeschwindigkeit verbessern <a href="#improving-generation-speed" id="improving-generation-speed"></a>

Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten selbst auszulagern.

Normalerweise, `-ot ".ffn_.*_exps.=CPU"` lagert alle MoE-Schichten auf die CPU aus! Dies ermöglicht effektiv, alle Nicht-MoE-Schichten auf 1 GPU unterzubringen und verbessert die Generationsgeschwindigkeit. Sie können den Regex-Ausdruck anpassen, um mehr Schichten unterzubringen, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie `-ot ".ffn_(up|down)_exps.=CPU"` Dies lagert Up- und Down-Projektions-MoE-Schichten aus.

Versuchen Sie `-ot ".ffn_(up)_exps.=CPU"` wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur Up-Projektions-MoE-Schichten aus.

Sie können auch den Regex anpassen, zum Beispiel `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, aber nur ab der 6. Schicht.

Die [neueste llama.cpp-Version](https://github.com/ggml-org/llama.cpp/pull/14363) führt außerdem einen Hochdurchsatzmodus ein. Verwenden Sie `llama-parallel`. Lesen Sie mehr darüber [hier](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel). Sie können auch **den KV-Cache z. B. auf 4 Bit quantisieren,** um z. B. VRAM-/RAM-Bewegungen zu reduzieren, was den Generationsprozess ebenfalls beschleunigen kann. Die [nächste Abschnitt](#how-to-fit-long-context-256k-to-1m) bespricht die KV-Cache-Quantisierung.

### 📐Wie man langen Kontext unterbringt <a href="#how-to-fit-long-context-256k-to-1m" id="how-to-fit-long-context-256k-to-1m"></a>

Um längeren Kontext unterzubringen, können Sie **KV-Cache-Quantisierung** verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generationsgeschwindigkeit erhöhen aufgrund reduzierter RAM-/VRAM-Datenbewegungen. Die erlaubten Optionen für K-Quantisierung (Standard ist `f16`) umfassen die untenstehenden.

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

Sie sollten die `_1` Varianten für etwas erhöhte Genauigkeit verwenden, obwohl sie etwas langsamer sind. Zum Beispiel `q4_1, q5_1` Probieren Sie also `--cache-type-k q4_1`

Sie können auch den V-Cache quantisieren, aber Sie müssen **llama.cpp mit Flash Attention kompilieren** Unterstützung via `-DGGML_CUDA_FA_ALL_QUANTS=ON`, und verwenden `--flash-attn` um es zu aktivieren. Nach der Installation von Flash Attention können Sie dann `--cache-type-v q4_1`

## 🦥 Qwen3-2507 mit Unsloth feinabstimmen

Unsloth macht [Qwen3](https://unsloth.ai/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune/..#fine-tuning-qwen3-with-unsloth) und Qwen3-2507-Fine-Tuning 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Da Qwen3-2507 nur in einer 30B-Variante veröffentlicht wurde, bedeutet dies, dass Sie etwa eine 40GB A100-GPU benötigen, um das Modell mit QLoRA (4-Bit) feinabzustimmen.

Für ein Notebook: Da das Modell nicht in Colabs kostenlose 16GB-GPUs passt, müssen Sie eine 40GB A100 verwenden. Sie können unser Conversational-Notebook verwenden, aber den Datensatz durch einen Ihrer Wahl ersetzen. Diesmal müssen Sie in Ihrem Datensatz kein kombiniertes Reasoning aufnehmen, da das Modell kein Reasoning hat.

* [Qwen3 (14B) Reasoning- + Conversational-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)

Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:

```bash
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
```

### Qwen3-2507 MOE-Modelle Fine-Tuning

Das Fine-Tuning unterstützt MOE-Modelle: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit 30GB VRAM mit Unsloth. Beim Fine-Tuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht feinzuabstimmen, daher haben wir sie standardmäßig deaktiviert.

**Qwen3-2507-4B-Notebooks für:** [Thinking](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(4B\)-Thinking.ipynb) und [Instruct](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(4B\)-Instruct.ipynb)

Der 30B-A3B passt in 30GB VRAM, aber Sie könnten RAM- oder Festplattenspeicher vermissen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Fine-Tuning on-the-fly in 4-Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Import von 4-Bit BnB MOE-Modellen. Dies betrifft nur MOE-Modelle.

{% hint style="warning" %}
Wenn Sie die MOE-Modelle feinabstimmen, verwenden Sie bitte `FastModel` und nicht `FastLanguageModel`
{% endhint %}

```python
from unsloth import FastModel
import torch
model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B-Instruct-2507",
    max_seq_length = 2048, # Wählen Sie beliebige Werte für langen Kontext!
    load_in_4bit = True,  # 4-Bit-Quantisierung zur Reduzierung des Speichers
    load_in_8bit = False, # [NEU!] Etwas genauer, verwendet 2x Speicher
    full_finetuning = False, # [NEU!] Wir haben jetzt vollständige Feinabstimmung!
    # token = "hf_...", # verwenden Sie einen, wenn Sie gegatterte Modelle verwenden
)
```

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-be34c101c627020c7a6cfb6cd249f2462587d235%2Fqwen33%20mascot.png?alt=media" alt=""><figcaption></figcaption></figure>
