> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/modelle/tutorials/deepseek-r1-0528-how-to-run-locally.md).

# DeepSeek-R1-0528: So wird es lokal ausgeführt

DeepSeek-R1-0528 ist DeepSeeks neues Update seines R1-Reasoning-Modells. Das vollständige Modell mit 671B Parametern benötigt 715 GB Festplattenspeicher. Die quantisierte dynamische **1,66-Bit** Version verwendet 162 GB (-80 % Größenreduzierung). GGUF: [DeepSeek-R1-0528-GGUF](https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF)

DeepSeek hat außerdem eine destillierte R1-0528-Version veröffentlicht, indem Qwen3 (8B) feinabgestimmt wurde. Das Distill erreicht eine ähnliche Leistung wie Qwen3 (235B). ***Du kannst auch*** [***Qwen3 Distill feinabstimmen***](#fine-tuning-deepseek-r1-0528-with-unsloth) ***mit Unsloth***. Qwen3 GGUF: [DeepSeek-R1-0528-Qwen3-8B-GGUF](https://huggingface.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF)

Alle Uploads verwenden Unsloths [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) für SOTA 5-Shot-MMLU- und KL-Divergenz-Leistung, was bedeutet, dass du quantisierte DeepSeek-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen kannst.

**Navigation der Tutorials:**

<a href="#run-qwen3-distilled-r1-in-llama.cpp" class="button secondary">In llama.cpp ausführen</a><a href="#run-in-ollama-open-webui" class="button secondary">In Ollama/Open WebUI ausführen</a><a href="#fine-tuning-deepseek-r1-0528-with-unsloth" class="button secondary">R1-0528 feinabstimmen</a>

{% hint style="success" %}
NEU: Enorme Verbesserungen beim Tool-Calling und Fixes für Chat-Templates.\
\
Neu [TQ1\_0 dynamischer 1,66-Bit-Quant](https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF?show_file_info=DeepSeek-R1-0528-UD-TQ1_0.gguf) - 162 GB groß. Ideal für 192 GB RAM (einschließlich Mac) und Ollama-Benutzer. Probier: `ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0`
{% endhint %}

## :gear: Empfohlene Einstellungen

Für DeepSeek-R1-0528-Qwen3-8B kann das Modell praktisch in jedes Setup passen, sogar in solche mit nur 20 GB RAM. Vorab sind keine Vorbereitungen nötig.\
\
Für das vollständige R1-0528-Modell, das 715 GB groß ist, brauchst du jedoch zusätzliche Vorbereitung. Der 1,78-Bit-(IQ1\_S)-Quant passt auf eine 1x 24-GB-GPU (wenn alle Layer ausgelagert werden). Mit diesem Setup sind etwa 5 Token/s zu erwarten, wenn du zusätzlich 128 GB RAM hast.

Es wird empfohlen, mindestens 64 GB RAM zu haben, um diesen Quant auszuführen (ohne GPU erhältst du 1 Token/s). Für optimale Leistung benötigst du mindestens **180 GB Unified Memory oder 180 GB kombinierte RAM+VRAM** für 5+ Token/s.

Wir empfehlen, unseren 2,7-Bit-(Q2\_K\_XL)- oder 2,4-Bit-(IQ2\_XXS)-Quant zu verwenden, um Größe und Genauigkeit auszubalancieren! Die 2,4-Bit-Version funktioniert ebenfalls gut.

{% hint style="success" %}
Auch wenn es nicht notwendig ist: Für die beste Leistung sollte dein kombiniertes VRAM + RAM der Größe des heruntergeladenen Quants entsprechen.
{% endhint %}

### 🐳 Offizielle empfohlene Einstellungen:

Laut [DeepSeek](https://huggingface.co/deepseek-ai/DeepSeek-R1-0528)sind dies die empfohlenen Einstellungen für die Inferenz von R1 (R1-0528 und Qwen3-Distill sollten dieselben Einstellungen verwenden):

* Setze die <mark style="background-color:green;">**Temperatur auf 0,6**</mark> um Wiederholungen und Inkohärenz zu reduzieren.
* Setze <mark style="background-color:green;">**top\_p auf 0,95**</mark> (empfohlen)
* Führe mehrere Tests aus und bilde den Durchschnitt der Ergebnisse für eine zuverlässige Bewertung.

### :1234: Chat-Template/Prompt-Format

R1-0528 verwendet dasselbe Chat-Template wie das ursprüngliche R1-Modell. Du musst \<think>\n nicht erzwingen, `<think>\n` aber du kannst es trotzdem hinzufügen!

```
<｜begin▁of▁sentence｜><｜User｜>Was ist 1+1?<｜Assistant｜>Es ist 2.<｜end▁of▁sentence｜><｜User｜>Erkläre mehr!<｜Assistant｜>
```

Ein BOS wird zwangsweise hinzugefügt, und ein EOS trennt jede Interaktion. Um doppelte BOS-Tokens während der Inferenz zu vermeiden, solltest du nur `tokenizer.encode(..., add_special_tokens = False)` aufrufen, da das Chat-Template ebenfalls automatisch ein BOS-Token hinzufügt.\
Für die llama.cpp / GGUF-Inferenz solltest du das BOS überspringen, da es automatisch hinzugefügt wird:

```
<｜User｜>Was ist 1+1?<｜Assistant｜>
```

Die `<think>` und `</think>` Tokens erhalten ihre eigenen speziellen Tokens.

## Modell-Uploads

**ALLE unsere Uploads** - einschließlich derer, die nicht auf imatrix basieren oder dynamisch sind, nutzen unseren Kalibrierungsdatensatz, der speziell für Gesprächs-, Coding- und Sprachaufgaben optimiert ist.

* Qwen3-(8B)-Distill: [DeepSeek-R1-0528-Qwen3-8B-GGUF](https://huggingface.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF)
* Alle Uploads des vollständigen DeepSeek-R1-0528-Modells unten:

Wir haben außerdem [IQ4\_NL](https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/IQ4_NL) und [Q4\_1](https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/Q4_1) Quants hochgeladen, die speziell auf ARM- bzw. Apple-Geräten schneller laufen.

<table data-full-width="false"><thead><tr><th>MoE-Bits</th><th>Typ + Link</th><th>Festplattengröße</th><th>Details</th></tr></thead><tbody><tr><td>1,66 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF?show_file_info=DeepSeek-R1-0528-UD-TQ1_0.gguf">TQ1_0</a></td><td><strong>162 GB</strong></td><td>1,92/1,56 Bit</td></tr><tr><td>1,78 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-IQ1_S">IQ1_S</a></td><td><strong>185 GB</strong></td><td>2,06/1,56 Bit</td></tr><tr><td>1,93 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-IQ1_M">IQ1_M</a></td><td><strong>200 GB</strong></td><td>2.5/2.06/1.56</td></tr><tr><td>2,42 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-IQ2_XXS">IQ2_XXS</a></td><td><strong>216 GB</strong></td><td>2,5/2,06 Bit</td></tr><tr><td>2,71 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-Q2_K_XL">Q2_K_XL</a></td><td><strong>251 GB</strong></td><td>3,5/2,5 Bit</td></tr><tr><td>3,12 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-IQ3_XXS">IQ3_XXS</a></td><td><strong>273 GB</strong></td><td>3,5/2,06 Bit</td></tr><tr><td>3,5 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-Q3_K_XL">Q3_K_XL</a></td><td><strong>296 GB</strong></td><td>4,5/3,5 Bit</td></tr><tr><td>4,5 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-Q4_K_XL">Q4_K_XL</a></td><td><strong>384 GB</strong></td><td>5,5/4,5 Bit</td></tr><tr><td>5,5 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/UD-Q5_K_XL">Q5_K_XL</a></td><td><strong>481 GB</strong></td><td>6,5/5,5 Bit</td></tr></tbody></table>

Wir haben auch Versionen hochgeladen in [BF16-Format](https://huggingface.co/unsloth/DeepSeek-R1-0528-BF16), und originales [FP8-(Float8)-Format](https://huggingface.co/unsloth/DeepSeek-R1-0528).

## DeepSeek-R1-0528-Tutorials ausführen:

### :llama: In Ollama/Open WebUI ausführen

1. Installiere `ollama` falls du es noch nicht getan hast! Du kannst nur Modelle bis zu einer Größe von 32B ausführen. Um das vollständige 720-GB-R1-0528-Modell auszuführen, [siehe hier](#run-full-r1-0528-on-ollama-open-webui).

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

2. Führe das Modell aus! Hinweis: Du kannst `ollama serve`in einem anderen Terminal ausführen, falls es fehlschlägt! Wir enthalten alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in `params` in unserem Hugging-Face-Upload!

```bash
ollama run hf.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_XL
```

3. <mark style="color:grün;background-color:yellow;">**(NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, kannst du unseren TQ1\_0-Quant (162 GB) verwenden:**</mark>

```bash
OLLAMA_MODELS=unsloth_downloaded_models ollama serve &

ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
```

### :llama: Vollständiges R1-0528 in Ollama/Open WebUI ausführen

Open WebUI hat ein Schritt-für-Schritt-Tutorial veröffentlicht, wie man R1 hier ausführt, und für R1-0528 musst du lediglich R1 durch den neuen 0528-Quant ersetzen: <https://docs.openwebui.com/tutorials/integrations/llm-providers/deepseekr1-dynamic>

<mark style="background-color:green;">**(NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, kannst du unseren TQ1\_0-Quant (162 GB) verwenden:**</mark>

```bash
OLLAMA_MODELS=unsloth_downloaded_models ollama serve &

ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
```

Wenn du einen der Quants verwenden möchtest, die größer als TQ1\_0 (162 GB) in Ollama sind, musst du zuerst die 3 GGUF-Split-Dateien zu einer zusammenführen, wie im folgenden Code. Danach musst du das Modell lokal ausführen.

```bash
./llama.cpp/llama-gguf-split --merge \
  DeepSeek-R1-0528-GGUF/DeepSeek-R1-0528-UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00003.gguf \
	merged_file.gguf
```

### ✨ Qwen3-destilliertes R1 in llama.cpp ausführen

1. <mark style="background-color:yellow;">**Um das vollständige 720-GB-R1-0528-Modell auszuführen,**</mark> [<mark style="background-color:yellow;">**siehe hier**</mark>](#run-full-r1-0528-on-llama.cpp)<mark style="background-color:yellow;">**.**</mark> Besorge dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den folgenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple-Mac-/Metal-Geräte**, setze `-DGGML_CUDA=OFF` dann fahre wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Dann verwende llama.cpp direkt, um das Modell herunterzuladen:

```bash
./llama.cpp/llama-cli -hf unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_XL --jinja
```

### ✨ Vollständiges R1-0528 in llama.cpp ausführen

1. Besorge dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den folgenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple-Mac-/Metal-Geräte**, setze `-DGGML_CUDA=OFF` dann fahre wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Wenn du `llama.cpp` direkt verwenden möchtest, um Modelle zu laden, kannst du Folgendes tun: (:IQ1\_S) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwende `export LLAMA_CACHE="folder"` um `llama.cpp` zu erzwingen, dass es an einem bestimmten Ort gespeichert wird.

{% hint style="success" %}
Bitte probiere `-ot ".ffn_.*_exps.=CPU"` aus, um alle MoE-Layer auf die CPU auszulagern! Dadurch kannst du effektiv alle nicht-MoE-Layer auf 1 GPU unterbringen und die Generierungsgeschwindigkeiten verbessern. Du kannst den Regex-Ausdruck anpassen, um mehr Layer auszulagern, wenn du mehr GPU-Kapazität hast.

Wenn du etwas mehr GPU-Speicher hast, probiere `-ot ".ffn_(up|down)_exps.=CPU"` aus. Dadurch werden Up- und Down-Projektions-MoE-Layer ausgelagert.

Probiere `-ot ".ffn_(up)_exps.=CPU"` aus, wenn du noch mehr GPU-Speicher hast. Dadurch werden nur Up-Projektions-MoE-Layer ausgelagert.

Und schließlich lagere alle Layer aus mit `-ot ".ffn_.*_exps.=CPU"` Das verwendet am wenigsten VRAM.

Du kannst den Regex auch anpassen, zum Beispiel `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` bedeutet, dass Gate-, Up- und Down-MoE-Layer ausgelagert werden, aber nur ab der 6. Schicht aufwärts.
{% endhint %}

```bash
export LLAMA_CACHE="unsloth/DeepSeek-R1-0528-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/DeepSeek-R1-0528-GGUF:IQ1_S \
    --cache-type-k q4_0 \
    --threads -1 \
    --n-gpu-layers 99 \
    --prio 3 \
    --temp 0,6 \
    --top-p 0,95 \
    --min-p 0,01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU"
```

3. Lade das Modell über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst wählen `UD-IQ1_S`(dynamischer 1,78-Bit-Quant) oder andere quantisierte Versionen wie `Q4_K_M` . Wir <mark style="background-color:green;">**empfehlen, unseren 2,7-Bit-dynamischen Quant**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**`UD-Q2_K_XL`**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**zu verwenden, um Größe und Genauigkeit auszubalancieren**</mark>. Weitere Versionen unter: <https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF>

{% code overflow="wrap" %}

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal zu Ratenbegrenzung führen, daher auf 0 setzen, um es zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/DeepSeek-R1-0528-GGUF",
    local_dir = "unsloth/DeepSeek-R1-0528-GGUF",
    allow_patterns = ["*UD-IQ1_S*"], # Dynamischer 1-Bit (168 GB) Verwende "*UD-Q2_K_XL*" für dynamischen 2-Bit (251 GB)
)
```

{% endcode %}

4. Führe Unsloths Flappy-Bird-Test wie in unserem 1,58-Bit Dynamic Quant für DeepSeek R1 beschrieben aus.
5. Bearbeite `--threads 32` für die Anzahl der CPU-Threads, `--ctx-size 16384` für die Kontextlänge, `--n-gpu-layers 2` für GPU-Offloading, wie viele Layer ausgelagert werden. Versuche es anzupassen, wenn deiner GPU der Speicher ausgeht. Entferne es auch, wenn du nur CPU-Inferenz hast.

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/DeepSeek-R1-0528-GGUF/UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00004.gguf \
    --cache-type-k q4_0 \
    --threads -1 \
    --n-gpu-layers 99 \
    --prio 3 \
    --temp 0,6 \
    --top-p 0,95 \
    --min-p 0,01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU" \
    -no-cnv \
    --prompt "<｜User｜>Erstelle ein Flappy-Bird-Spiel in Python. Du musst diese Dinge einschließen:\n1. Du musst pygame verwenden.\n2. Die Hintergrundfarbe sollte zufällig gewählt werden und ein heller Farbton sein. Beginne mit einem hellblauen Farbton.\n3. Mehrfaches Drücken der Leertaste beschleunigt den Vogel.\n4. Die Form des Vogels sollte zufällig als Quadrat, Kreis oder Dreieck gewählt werden. Die Farbe sollte zufällig als dunkle Farbe gewählt werden.\n5. Platziere unten etwas Land, das zufällig dunkelbraun oder gelb gefärbt ist.\n6. Zeige oben rechts eine Punktzahl an. Erhöhe sie, wenn du an Rohren vorbeikommst und sie nicht triffst.\n7. Erzeuge zufällig verteilte Rohre mit ausreichend Platz. Färbe sie zufällig dunkelgrün oder hellbraun oder in einem dunklen Grauton.\n8. Wenn du verlierst, zeige die beste Punktzahl an. Platziere den Text innerhalb des Bildschirms. Drücke q oder Esc, um das Spiel zu beenden. Ein Neustart erfolgt durch erneutes Drücken der Leertaste.\nDas fertige Spiel sollte in einem Markdown-Abschnitt in Python stehen. Prüfe deinen Code auf Fehler und behebe sie vor dem finalen Markdown-Abschnitt.<｜Assistant｜>"
```

{% endcode %}

## :8ball: Sechseck-Test

Du kannst unsere dynamischen Quants auch testen über [r/Localllama](https://www.reddit.com/r/LocalLLaMA/comments/1j7r47l/i_just_made_an_animation_of_a_ball_bouncing/) das das Modell beim Erstellen einer einfachen Physik-Engine testet, um Bälle zu simulieren, die sich in einer sich bewegenden, eingeschlossenen Sechseckform drehen.

<figure><img src="/files/952ab4bf76e401b6b418003222ed4480fffe97ed" alt="" width="563"><figcaption><p>Das Ziel ist es, das Sechseck rotieren zu lassen und die Bälle im Sechseck sollen sich bewegen.</p></figcaption></figure>

<details>

<summary>Vollständiger Prompt zum Ausführen des Modells</summary>

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/DeepSeek-R1-0528-GGUF/UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00004.gguf \
    --cache-type-k q4_0 \
    --threads -1 \
    --n-gpu-layers 99 \
    --prio 3 \
    --temp 0,6 \
    --top_p 0,95 \
    --min_p 0,01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU" \
    -no-cnv \
    --prompt "<｜User｜>Schreibe ein Python-Programm, das 20 Bälle zeigt, die in einem rotierenden Sechseck springen:\n- Alle Bälle haben denselben Radius.\n- Alle Bälle haben eine Nummer von 1 bis 20.\n- Alle Bälle fallen beim Start aus dem Zentrum des Sechsecks.\n- Farben sind: #f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35\n- Die Bälle sollten von Gravitation und Reibung beeinflusst werden und realistisch von den rotierenden Wänden abprallen. Es sollte auch Kollisionen zwischen den Bällen geben.\n- Das Material aller Bälle bestimmt, dass ihre Aufprall-Sprunghöhe den Radius des Sechsecks nicht überschreitet, aber größer als der Ballradius ist.\n- Alle Bälle rotieren mit Reibung, die Zahlen auf dem Ball können verwendet werden, um den Spin des Balls anzugeben.\n- Das Sechseck rotiert um sein Zentrum, und die Rotationsgeschwindigkeit beträgt 360 Grad pro 5 Sekunden.\n- Die Größe des Sechsecks sollte groß genug sein, um alle Bälle zu enthalten.\n- Verwende nicht die pygame-Bibliothek; implementiere Kollisionserkennung und Kollisionsreaktion usw. selbst. Die folgenden Python-Bibliotheken sind erlaubt: tkinter, math, numpy, dataclasses, typing, sys.\n- Der gesamte Code sollte in einer einzigen Python-Datei stehen.<｜Assistant｜>"
```

{% endcode %}

</details>

## 🦥 DeepSeek-R1-0528 mit Unsloth feinabstimmen

Um **DeepSeek-R1-0528-Qwen3-8B** mit Unsloth feinabzustimmen, haben wir ein neues GRPO-Notebook mit einer benutzerdefinierten Belohnungsfunktion erstellt, die darauf ausgelegt ist, die mehrsprachige Ausgabe deutlich zu verbessern – insbesondere die Rate gewünschter Sprachantworten (in unserem Beispiel verwenden wir Indonesisch, aber du kannst jede Sprache verwenden) um mehr als 40 % zu erhöhen.

* [**DeepSeek-R1-0528-Qwen3-8B-Notebook**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/DeepSeek_R1_0528_Qwen3_\(8B\)_GRPO.ipynb) **- neu**

Obwohl viele Reasoning-LLMs mehrsprachige Fähigkeiten haben, erzeugen sie in ihren Reasoning-Traces oft gemischtsprachige Ausgaben und kombinieren Englisch mit der Zielsprache. Unsere Belohnungsfunktion mildert dieses Problem wirksam, indem sie Ausgaben in der gewünschten Sprache stark fördert, was zu einer erheblichen Verbesserung der Sprachkonsistenz führt.

Diese Belohnungsfunktion ist außerdem vollständig anpassbar, sodass du sie für andere Sprachen anpassen oder für bestimmte Domänen oder Anwendungsfälle feinabstimmen kannst.

{% hint style="success" %}
Das Beste an dieser gesamten Belohnungsfunktion und dem Notebook ist, dass du KEIN Sprachdatenset benötigst, um dein Modell dazu zu bringen, eine bestimmte Sprache zu lernen. Das Notebook enthält kein Indonesisch-Datenset.
{% endhint %}

Unsloth macht das Feintuning von R1-Qwen3-Distill 2× schneller, benötigt 70 % weniger VRAM und unterstützt 8× längere Kontextlängen.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/deepseek-r1-0528-how-to-run-locally.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
