# DeepSeek-R1-0528: Wie man lokal ausführt

DeepSeek-R1-0528 ist DeepSeeks neues Update ihres R1-Reasoning-Modells. Das vollständige Modell mit 671B Parametern benötigt 715 GB Festplattenspeicher. Die quantisierte dynamische **1,66-Bit** Version benötigt 162 GB (-80 % Größenreduktion). GGUF: [DeepSeek-R1-0528-GGUF](https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF)

DeepSeek hat außerdem eine destillierte R1-0528-Version veröffentlicht, indem Qwen3 (8B) feinabgestimmt wurde. Das Distillat erreicht eine ähnliche Leistung wie Qwen3 (235B). ***Du kannst auch*** [***Qwen3 Distill feinabstimmen***](#fine-tuning-deepseek-r1-0528-with-unsloth) ***mit Unsloth***. Qwen3 GGUF: [DeepSeek-R1-0528-Qwen3-8B-GGUF](https://huggingface.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF)

Alle Uploads verwenden Unsloth [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) für SOTA 5-Shot MMLU- und KL-Divergenz-Performance, was bedeutet, dass Sie quantisierte DeepSeek-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen können.

**Tutorial-Navigation:**

<a href="#run-qwen3-distilled-r1-in-llama.cpp" class="button secondary">In llama.cpp ausführen</a><a href="#run-in-ollama-open-webui" class="button secondary">In Ollama/Open WebUI ausführen</a><a href="#fine-tuning-deepseek-r1-0528-with-unsloth" class="button secondary">Feinabstimmung von R1-0528</a>

{% hint style="success" %}
NEU: Riesige Verbesserungen beim Tool-Calling und Korrekturen der Chat-Vorlage.\
\
Neu [TQ1\_0 dynamische 1,66-Bit-Quantisierung](https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF?show_file_info=DeepSeek-R1-0528-UD-TQ1_0.gguf) - 162 GB groß. Ideal für 192 GB RAM (einschließlich Mac) und Ollama-Nutzer. Ausprobieren: `ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0`
{% endhint %}

## :gear: Empfohlene Einstellungen

Für DeepSeek-R1-0528-Qwen3-8B passt das Modell praktisch in jedes Setup, sogar in solche mit nur 20 GB RAM. Es ist keine Vorbereitung im Voraus nötig.\
\
Für das vollständige R1-0528-Modell mit einer Größe von 715 GB ist jedoch zusätzliche Vorbereitung erforderlich. Die 1,78-Bit-(IQ1\_S)-Quantisierung passt in eine 1x 24-GB-GPU (mit komplett ausgelagerten Schichten). Mit diesem Setup und zusätzlich 128 GB RAM kannst du etwa 5 Tokens/s erwarten.

Es wird empfohlen, mindestens 64 GB RAM zu haben, um diese Quantisierung auszuführen (du erhältst 1 Token/s ohne GPU). Für optimale Leistung benötigst du mindestens **180 GB Unified Memory oder 180 GB kombinierte RAM+VRAM** für 5+ Tokens/s.

Wir empfehlen unsere 2,7-Bit-(Q2\_K\_XL)- oder 2,4-Bit-(IQ2\_XXS)-Quantisierung, um Größe und Genauigkeit auszubalancieren! Die 2,4-Bit-Variante funktioniert ebenfalls gut.

{% hint style="success" %}
Auch wenn es nicht notwendig ist: Für die beste Leistung sollte dein kombiniertes VRAM + RAM der Größe der heruntergeladenen Quantisierung entsprechen.
{% endhint %}

### 🐳 Offizielle empfohlene Einstellungen:

Laut [DeepSeek](https://huggingface.co/deepseek-ai/DeepSeek-R1-0528), dies sind die empfohlenen Einstellungen für die Inferenz von R1 (R1-0528 und Qwen3 Distill sollten dieselben Einstellungen verwenden):

* Setzen Sie die <mark style="background-color:green;">**Temperatur 0,6**</mark> um Wiederholungen und Inkohärenz zu reduzieren.
* Setzen Sie <mark style="background-color:green;">**top\_p auf 0,95**</mark> (empfohlen)
* Führe mehrere Tests durch und bilde den Durchschnitt der Ergebnisse für eine zuverlässige Bewertung.

### :1234: Chat-Template/Prompt-Format

R1-0528 verwendet dieselbe Chat-Vorlage wie das ursprüngliche R1-Modell. Du musst `<think>\n` nicht erzwingen, kannst es aber trotzdem hinzufügen!

```
<｜begin▁of▁sentence｜><｜User｜>Was ist 1+1?<｜Assistant｜>Es ist 2.<｜end▁of▁sentence｜><｜User｜>Erkläre mehr!<｜Assistant｜>
```

Ein BOS wird erzwungen hinzugefügt, und ein EOS trennt jede Interaktion. Um doppelte BOS-Tokens während der Inferenz zu vermeiden, solltest du nur `tokenizer.encode(..., add_special_tokens = False)` da die Chat-Vorlage auch automatisch ein BOS-Token hinzufügt.\
Für die llama.cpp-/GGUF-Inferenz solltest du das BOS überspringen, da es automatisch hinzugefügt wird:

```
<｜User｜>Was ist 1+1?<｜Assistant｜>
```

Die `<think>` und `</think>` Tokens erhalten ihre eigenen zugewiesenen Tokens.

## Modell-Uploads

**ALLE unsere Uploads** - einschließlich derjenigen, die nicht auf imatrix-basiert oder dynamisch sind, verwenden unseren Kalibrierungsdatensatz, der speziell für Konversations-, Coding- und Sprachaufgaben optimiert ist.

* Qwen3 (8B) Distillat: [DeepSeek-R1-0528-Qwen3-8B-GGUF](https://huggingface.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF)
* Vollständige DeepSeek-R1-0528-Modell-Uploads unten:

Wir haben auch [IQ4\_NL](https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/IQ4_NL) und [Q4\_1](https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/Q4_1) Quants hochgeladen, die speziell auf ARM- bzw. Apple-Geräten schneller laufen.

<table data-full-width="false"><thead><tr><th>MoE-Bits</th><th>Typ + Link</th><th>Festplattengröße</th><th>Details</th></tr></thead><tbody><tr><td>1,66 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF?show_file_info=DeepSeek-R1-0528-UD-TQ1_0.gguf">TQ1_0</a></td><td><strong>162 GB</strong></td><td>1,92/1,56 Bit</td></tr><tr><td>1,78 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-IQ1_S">IQ1_S</a></td><td><strong>185 GB</strong></td><td>2,06/1,56 Bit</td></tr><tr><td>1,93 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-IQ1_M">IQ1_M</a></td><td><strong>200 GB</strong></td><td>2.5/2.06/1.56</td></tr><tr><td>2,42 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-IQ2_XXS">IQ2_XXS</a></td><td><strong>216 GB</strong></td><td>2,5/2,06 Bit</td></tr><tr><td>2,71 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-Q2_K_XL">Q2_K_XL</a></td><td><strong>251GB</strong></td><td>3,5/2,5 Bit</td></tr><tr><td>3,12 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-IQ3_XXS">IQ3_XXS</a></td><td><strong>273 GB</strong></td><td>3,5/2,06 Bit</td></tr><tr><td>3,5 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-Q3_K_XL">Q3_K_XL</a></td><td><strong>296 GB</strong></td><td>4,5/3,5 Bit</td></tr><tr><td>4,5 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-Q4_K_XL">Q4_K_XL</a></td><td><strong>384 GB</strong></td><td>5,5/4,5 Bit</td></tr><tr><td>5,5 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-Q5_K_XL">Q5_K_XL</a></td><td><strong>481 GB</strong></td><td>6,5/5,5 Bit</td></tr></tbody></table>

Wir haben auch Versionen in [BF16-Format](https://huggingface.co/unsloth/DeepSeek-R1-0528-BF16)und originalem [FP8-(Float8)-Format](https://huggingface.co/unsloth/DeepSeek-R1-0528).

## DeepSeek-R1-0528-Tutorials ausführen:

### :llama: In Ollama/Open WebUI ausführen

1. Installieren Sie `ollama` falls du das nicht schon getan hast! Du kannst nur Modelle bis zu einer Größe von 32B ausführen. Um das vollständige 720-GB-R1-0528-Modell auszuführen, [sehen Sie hier](#run-full-r1-0528-on-ollama-open-webui).

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

2. Führen Sie das Modell aus! Beachten Sie, dass Sie `ollama serve`in einem anderen Terminal aufrufen können, falls es fehlschlägt! Wir enthalten alle unsere Korrekturen und vorgeschlagenen Parameter (temperature usw.) in `params` in unserem Hugging-Face-Upload!

```bash
ollama run hf.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_XL
```

3. <mark style="color:grün;background-color:yellow;">**(NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, kannst du unsere TQ1\_0-Quantisierung (162 GB) verwenden:**</mark>

```bash
OLLAMA_MODELS=unsloth_downloaded_models ollama serve &

ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
```

### :llama: Vollständiges R1-0528 auf Ollama/Open WebUI ausführen

Open WebUI hat hier ein Schritt-für-Schritt-Tutorial dazu erstellt, wie man R1 ausführt, und für R1-0528 musst du nur R1 durch die neue 0528-Quantisierung ersetzen: <https://docs.openwebui.com/tutorials/integrations/llm-providers/deepseekr1-dynamic>

<mark style="background-color:green;">**(NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, kannst du unsere TQ1\_0-Quantisierung (162 GB) verwenden:**</mark>

```bash
OLLAMA_MODELS=unsloth_downloaded_models ollama serve &

ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
```

Wenn du in Ollama eine der Quantisierungen verwenden möchtest, die größer als TQ1\_0 (162 GB) sind, musst du zuerst die 3 GGUF-Split-Dateien zu einer einzigen zusammenführen, wie im folgenden Code. Danach musst du das Modell lokal ausführen.

```bash
./llama.cpp/llama-gguf-split --merge \\
  DeepSeek-R1-0528-GGUF/DeepSeek-R1-0528-UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00003.gguf \
	merged_file.gguf
```

### ✨ Qwen3-destilliertes R1 in llama.cpp ausführen

1. <mark style="background-color:yellow;">**Um das vollständige 720-GB-R1-0528-Modell auszuführen,**</mark> [<mark style="background-color:yellow;">**sehen Sie hier**</mark>](#run-full-r1-0528-on-llama.cpp)<mark style="background-color:yellow;">**.**</mark> Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Verwende dann llama.cpp direkt, um das Modell herunterzuladen:

```bash
./llama.cpp/llama-cli -hf unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_XL --jinja
```

### ✨ Vollständiges R1-0528 in llama.cpp ausführen

1. Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Wenn du `llama.cpp` um Modelle direkt zu laden, kannst du Folgendes verwenden: (:IQ1\_S) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwenden Sie `export LLAMA_CACHE="folder"` um zu erzwingen, dass `llama.cpp` um an einem bestimmten Speicherort zu speichern.

{% hint style="success" %}
Bitte probieren Sie `-ot ".ffn_.*_exps.=CPU"` verwenden, um alle MoE-Layer auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Layer auf 1 GPU unterbringen, was die Generierungsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Layer unterzubringen, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie `-ot ".ffn_(up|down)_exps.=CPU"` Dies lagert die MoE-Layer für Up- und Down-Projektionen aus.

Versuchen Sie `-ot ".ffn_(up)_exps.=CPU"` wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur die MoE-Layer für Up-Projektionen aus.

Und schließlich lagern Sie alle Layer aus via `-ot ".ffn_.*_exps.=CPU"` Dies verwendet am wenigsten VRAM.

Sie können den Regex auch anpassen, zum Beispiel `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` bedeutet, Gate-, Up- und Down-MoE-Layer auszulagern, aber nur ab der 6. Schicht.
{% endhint %}

```bash
export LLAMA_CACHE="unsloth/DeepSeek-R1-0528-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/DeepSeek-R1-0528-GGUF:IQ1_S \
    --cache-type-k q4_0 \\
    --threads -1 \\
    --n-gpu-layers 99 \
    --prio 3 \
    --temp 0.6 \\
    --top-p 0.95 \
    --min-p 0,01 \
    --ctx-size 16384 \
    --seed 3407 \\
    -ot ".ffn_.*_exps.=CPU"
```

3. Lade das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `UD-IQ1_S`(dynamische 1,78-Bit-Quantisierung) oder andere quantisierte Versionen wie `Q4_K_M` . Wir <mark style="background-color:green;">**empfehlen unser dynamisches 2,7-Bit-Quant**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**`UD-Q2_K_XL`**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**zu verwenden, um Größe und Genauigkeit auszubalancieren**</mark>. Weitere Versionen unter: [https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF](https://huggingface.co/unsloth/DeepSeek-V3-0324-GGUF)

{% code overflow="wrap" %}

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal eine Ratenbegrenzung auslösen, daher auf 0 setzen, um zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/DeepSeek-R1-0528-GGUF",
    local_dir = "unsloth/DeepSeek-R1-0528-GGUF",
    allow_patterns = ["*UD-IQ1_S*"], # Dynamische 1-Bit (168GB) Verwende "*UD-Q2_K_XL*" für dynamische 2-Bit (251GB)
)
```

{% endcode %}

4. Führe Unsloths Flappy-Bird-Test aus, wie in unserer 1,58-Bit-Dynamic-Quantisierung für DeepSeek R1 beschrieben.
5. Bearbeiten `--threads 32` für die Anzahl der CPU-Threads bearbeiten, `--ctx-size 16384` für die Kontextlänge, `--n-gpu-layers 2` für GPU-Offloading, also für wie viele Layer. Versuchen Sie, dies anzupassen, wenn Ihrem GPU-Speicher der Platz ausgeht. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/DeepSeek-R1-0528-GGUF/UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00004.gguf \
    --cache-type-k q4_0 \\
    --threads -1 \\
    --n-gpu-layers 99 \
    --prio 3 \
    --temp 0.6 \\
    --top-p 0.95 \
    --min-p 0,01 \
    --ctx-size 16384 \
    --seed 3407 \\
    -ot ".ffn_.*_exps.=CPU" \
    -no-cnv \\
    --prompt "<｜User｜>Erstelle ein Flappy-Bird-Spiel in Python. Du musst diese Dinge einbeziehen:\n1. Du musst pygame verwenden.\n2. Die Hintergrundfarbe sollte zufällig gewählt werden und ein heller Farbton sein. Beginne mit einem hellblauen Farbton.\n3. Mehrfaches Drücken der LEERTASTE beschleunigt den Vogel.\n4. Die Form des Vogels sollte zufällig als Quadrat, Kreis oder Dreieck gewählt werden. Die Farbe sollte zufällig als dunkle Farbe gewählt werden.\n5. Platziere unten etwas Land, das zufällig dunkelbraun oder gelb gefärbt ist.\n6. Zeige oben rechts eine Punktzahl an. Erhöhe sie, wenn du an Rohren vorbeikommst, ohne sie zu berühren.\n7. Erstelle zufällig verteilte Rohre mit genügend Abstand. Färbe sie zufällig dunkelgrün, hellbraun oder in einem dunklen Grauton.\n8. Wenn du verlierst, zeige die Bestpunktzahl an. Platziere den Text innerhalb des Bildschirms. Mit q oder Esc beendest du das Spiel. Ein Neustart erfolgt durch erneutes Drücken der LEERTASTE.\nDas fertige Spiel sollte in einem Markdown-Abschnitt in Python stehen. Prüfe deinen Code auf Fehler und behebe sie vor dem endgültigen Markdown-Abschnitt.<｜Assistant｜>"
```

{% endcode %}

## :8ball: Heptagon-Test

Du kannst unsere dynamischen Quantisierungen auch testen über [r/Localllama](https://www.reddit.com/r/LocalLLaMA/comments/1j7r47l/i_just_made_an_animation_of_a_ball_bouncing/) der das Modell beim Erstellen einer einfachen Physik-Engine testet, um Bälle zu simulieren, die in einer sich bewegenden, geschlossenen Heptagon-Form rotieren.

<figure><img src="/files/952ab4bf76e401b6b418003222ed4480fffe97ed" alt="" width="563"><figcaption><p>Das Ziel ist, das Heptagon zum Rotieren zu bringen, und die Bälle im Heptagon sollten sich bewegen.</p></figcaption></figure>

<details>

<summary>Vollständiger Prompt zum Ausführen des Modells</summary>

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/DeepSeek-R1-0528-GGUF/UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00004.gguf \
    --cache-type-k q4_0 \\
    --threads -1 \\
    --n-gpu-layers 99 \
    --prio 3 \
    --temp 0.6 \\
    --top_p 0.95 \
    --min_p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \\
    -ot ".ffn_.*_exps.=CPU" \
    -no-cnv \\
    --prompt "<｜User｜>Schreibe ein Python-Programm, das 20 Bälle zeigt, die in einem rotierenden Heptagon herumprallen:\n- Alle Bälle haben denselben Radius.\n- Alle Bälle haben eine Zahl von 1 bis 20 darauf.\n- Alle Bälle fallen beim Start aus dem Zentrum des Heptagons.\n- Die Farben sind: #f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35\n- Die Bälle sollen von Schwerkraft und Reibung beeinflusst werden und realistisch von den rotierenden Wänden abprallen. Es sollte auch Kollisionen zwischen den Bällen geben.\n- Das Material aller Bälle bestimmt, dass ihre Aufprall-Abprallhöhe den Radius des Heptagons nicht überschreiten darf, aber größer als der Ballradius sein muss.\n- Alle Bälle rotieren mit Reibung; die Zahlen auf den Bällen können verwendet werden, um den Spin des Balls anzuzeigen.\n- Das Heptagon rotiert um sein Zentrum, und die Rotationsgeschwindigkeit beträgt 360 Grad pro 5 Sekunden.\n- Die Größe des Heptagons sollte groß genug sein, um alle Bälle aufzunehmen.\n- Verwende nicht die pygame-Bibliothek; implementiere Kollisionsdetektionsalgorithmen und Kollisionsreaktion usw. selbst. Folgende Python-Bibliotheken sind erlaubt: tkinter, math, numpy, dataclasses, typing, sys.\n- Der gesamte Code sollte in einer einzigen Python-Datei stehen.<｜Assistant｜>"
```

{% endcode %}

</details>

## 🦥 DeepSeek-R1-0528 mit Unsloth feinabstimmen

Um **DeepSeek-R1-0528-Qwen3-8B** mit Unsloth feinabzustimmen, haben wir ein neues GRPO-Notebook mit einer benutzerdefinierten Belohnungsfunktion erstellt, die darauf ausgelegt ist, die mehrsprachige Ausgabe deutlich zu verbessern – insbesondere die Rate gewünschter Sprachantworten (in unserem Beispiel verwenden wir Indonesisch, aber du kannst jede andere Sprache verwenden) um mehr als 40 % zu erhöhen.

* [**DeepSeek-R1-0528-Qwen3-8B-Notebook**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/DeepSeek_R1_0528_Qwen3_\(8B\)_GRPO.ipynb) **- neu**

Während viele Reasoning-LLMs mehrsprachige Fähigkeiten haben, erzeugen sie in ihren Reasoning-Traces oft gemischtsprachige Ausgaben und kombinieren Englisch mit der Zielsprache. Unsere Belohnungsfunktion mindert dieses Problem wirksam, indem sie Ausgaben in der gewünschten Sprache stark fördert und so zu einer erheblichen Verbesserung der Sprachkonsistenz führt.

Diese Belohnungsfunktion ist außerdem vollständig anpassbar, sodass du sie an andere Sprachen anpassen oder für bestimmte Domänen bzw. Anwendungsfälle feinabstimmen kannst.

{% hint style="success" %}
Das Beste an dieser gesamten Belohnungsfunktion und dem Notebook ist, dass du KEIN Sprachdatenset benötigst, um dein Modell zu zwingen, eine bestimmte Sprache zu lernen. Das Notebook enthält kein indonesisches Datenset.
{% endhint %}

Unsloth macht das R1-Qwen3-Distill-Fine-Tuning 2× schneller, verwendet 70 % weniger VRAM und unterstützt 8× längere Kontextlängen.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/deepseek-r1-0528-how-to-run-locally.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
