# DeepSeek-V3.1: Wie man lokal ausführt

DeepSeeks V3.1 und **Terminus** Update führt hybrides Reasoning-Inference ein und kombiniert „Think“ und „Non-Think“ in einem Modell. Das vollständige Modell mit 671B Parametern benötigt 715 GB Festplattenspeicher. Die quantisierte dynamische 2-Bit-Version verwendet 245 GB (-75 % Größenreduktion). GGUF: [**DeepSeek-V3.1-GGUF**](https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF)

{% hint style="success" %}
**NEU:** DeepSeek-V3.1-Terminus jetzt verfügbar: [DeepSeek-V3.1-Terminus-GGUF](https://huggingface.co/unsloth/DeepSeek-V3.1-Terminus-GGUF)\
\
[**Update vom 10. Sept. 2025:**](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md) Ihr habt nach härteren Benchmarks gefragt, also zeigen wir die Ergebnisse von Aider Polyglot! Unser dynamisches 3-Bit DeepSeek V3.1 GGUF erreicht **75.6%**, und übertrifft damit viele SOTA-LLMs in Vollpräzision. [Mehr lesen.](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md)

Unsere DeepSeek-V3.1-GGUFs enthalten Unsloth [Korrekturen am Chat-Template](#chat-template-bug-fixes) für von llama.cpp unterstützte Backends.
{% endhint %}

Alle Uploads verwenden Unsloth [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) für SOTA 5-Shot MMLU- und KL-Divergenz-Performance, was bedeutet, dass Sie quantisierte DeepSeek-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen können.

**Tutorial-Navigation:**

<a href="#run-in-llama.cpp" class="button secondary">In llama.cpp ausführen</a><a href="#run-in-ollama-open-webui" class="button secondary">In Ollama/Open WebUI ausführen</a>

## :gear: Empfohlene Einstellungen

Die 1-Bit-Dynamik-Quant TQ1\_0 (1 Bit für unwichtige MoE-Schichten, 2–4 Bit für wichtige MoE-Schichten und 6–8 Bit für den Rest) benötigt 170 GB Festplattenspeicher – das funktioniert gut in einem **1x24GB-Karte und 128GB RAM** mit MoE-Auslagerung – es **funktioniert auch nativ in Ollama**!

{% hint style="info" %}
Sie müssen `--jinja` für llama.cpp-Quants verwenden – das nutzt unsere [festen Chat-Vorlagen](#chat-template-bug-fixes) und aktiviert die korrekte Vorlage! Sie können falsche Ergebnisse erhalten, wenn Sie `--jinja`
{% endhint %}

Die 2-Bit-Quants passen auf 1x 24-GB-GPU (mit in den RAM ausgelagerten MoE-Schichten). Rechnen Sie mit etwa 5 Tokens/s mit diesem Setup, wenn Sie zusätzlich 128 GB RAM haben. Es wird empfohlen, mindestens 226 GB RAM zu haben, um diese 2-Bit-Version auszuführen. Für optimale Leistung benötigen Sie mindestens 226 GB Unified Memory oder 226 GB kombinierte RAM+VRAM für 5+ Tokens/s. Um zu lernen, wie man die Generierungsgeschwindigkeit erhöht und längere Kontexte unterbringt, [lesen Sie hier](#improving-generation-speed).

{% hint style="success" %}
Obwohl nicht zwingend erforderlich, sollte für beste Leistung VRAM + RAM zusammen der Größe der Quants entsprechen, die Sie herunterladen. Wenn nicht, funktioniert Auslagerung auf Festplatte/SSD mit llama.cpp, nur die Inferenz wird langsamer sein.
{% endhint %}

## :butterfly:Fehlerbehebungen am Chat-Template

Wir haben einige Probleme mit dem Chat-Template von DeepSeek V3.1 behoben, da es in llama.cpp und anderen Engines nicht korrekt funktionierte:

1. DeepSeek V3.1 ist ein hybrides Reasoning-Modell, was bedeutet, dass Sie das Chat-Template ändern können, um Reasoning zu aktivieren. Das eingeführte Chat-Template `thinking = True` während andere Modelle `enable_thinking = True` verwenden. Wir haben die Option hinzugefügt, `enable_thinking` stattdessen als Schlüsselwort zu verwenden.
2. Der Jinja-Renderer von llama.cpp über [minja](https://github.com/google/minja) erlaubt die Verwendung zusätzlicher Argumente im `.split()` Befehl nicht, daher funktioniert die Verwendung von `.split(text, 1)` in Python, aber nicht in minja. Wir mussten das ändern, damit llama.cpp korrekt funktioniert, ohne Fehler zu verursachen.\
   \
   Sie erhalten den folgenden Fehler, wenn Sie andere Quants verwenden:\
   `terminate called after throwing an instance of 'std::runtime_error' what(): split method must have between 1 and 1 positional arguments and between 0 and 0 keyword arguments at row 3, column 1908` Wir haben es in all unseren Quants behoben!

### 🐳Offizielle empfohlene Einstellungen

Laut [DeepSeek](https://huggingface.co/deepseek-ai/DeepSeek-V3.1)sind dies die empfohlenen Einstellungen für die V3.1-Inferenz:

* Setzen Sie die <mark style="background-color:green;">**Temperatur auf 0,6**</mark> um Wiederholungen und Inkohärenz zu reduzieren.
* Setzen Sie <mark style="background-color:green;">**top\_p auf 0,95**</mark> (empfohlen)
* **128K Kontextlänge** oder weniger
* Verwende `--jinja` für llama.cpp-Varianten – wir **haben auch einige Probleme mit Chat-Vorlagen behoben!**
* **Verwende** `enable_thinking = True` um den Reasoning-/Thinking-Modus zu verwenden. Standardmäßig ist er auf Non-Reasoning gesetzt.

#### :1234: Chat-Template/Prompt-Format

Sie müssen nicht erzwingen `<think>\n` , aber Sie können es trotzdem hinzufügen! Mit dem angegebenen Präfix erzeugt DeepSeek V3.1 Antworten auf Anfragen im Non-Thinking-Modus. Anders als DeepSeek V3 führt es ein zusätzliches Token ein `</think>`.

```
<｜begin▁of▁sentence｜>{system prompt}<｜User｜>{query}<｜Assistant｜></think>
```

Ein BOS wird erzwungen hinzugefügt, und ein EOS trennt jede Interaktion. Um doppelte BOS-Tokens während der Inferenz zu vermeiden, solltest du nur `tokenizer.encode(..., add_special_tokens = False)` da das Chat-Template auch automatisch ein BOS-Token hinzufügt. Für llama.cpp / GGUF-Inferenz sollten Sie das BOS überspringen, da es automatisch hinzugefügt wird.

#### :notebook\_with\_decorative\_cover: Non-Thinking-Modus (verwenden Sie `thinking = False`oder `enable_thinking = False` und standardmäßig ist es so eingestellt)

**Erste Runde**

Präfix: `<｜begin▁of▁sentence｜>{system prompt}<｜User｜>{query}<｜Assistant｜></think>`

Mit dem angegebenen Präfix erzeugt DeepSeek V3.1 Antworten auf Anfragen im Non-Thinking-Modus. Anders als DeepSeek V3 führt es ein zusätzliches Token ein `</think>`.

**Multi-Turn**

Kontext: `<｜begin▁of▁sentence｜>{system prompt}<｜User｜>{query}<｜Assistant｜></think>{response}<｜end▁of▁sentence｜>...<｜User｜>{query}<｜Assistant｜></think>{response}<｜end▁of▁sentence｜>`

Präfix: `<｜User｜>{query}<｜Assistant｜></think>`

Durch die Verkettung von Kontext und Präfix erhalten wir den korrekten Prompt für die Anfrage.

#### :books: Thinking-Modus (verwenden Sie `thinking = True`oder `enable_thinking = True` und standardmäßig ist es so eingestellt)

**Erste Runde**

Präfix: `<｜begin▁of▁sentence｜>{system prompt}<｜User｜>{query}<｜Assistant｜><think>`

Das Präfix des Thinking-Modus ähnelt DeepSeek-R1.

**Multi-Turn**

Kontext: `<｜begin▁of▁sentence｜>{system prompt}<｜User｜>{query}<｜Assistant｜></think>{response}<｜end▁of▁sentence｜>...<｜User｜>{query}<｜Assistant｜></think>{response}<｜end▁of▁sentence｜>`

Präfix: `<｜User｜>{query}<｜Assistant｜><think>`

Das Multi-Turn-Template ist dasselbe wie das Non-Thinking-Multi-Turn-Chat-Template. Das bedeutet, dass das Thinking-Token in der letzten Runde verworfen wird, aber das `</think>` in jeder Runde des Kontexts beibehalten wird.

#### :bow\_and\_arrow: Tool-Aufruf

Tool-Aufrufe werden im Non-Thinking-Modus unterstützt. Das Format ist:

`<｜begin▁of▁sentence｜>{system prompt}{tool_description}<｜User｜>{query}<｜Assistant｜></think>` wobei wir den tool\_description-Bereich nach dem System-Prompt befüllen.

## :arrow\_forward:DeepSeek-V3.1-Tutorials ausführen:

### :llama: In Ollama/Open WebUI ausführen

{% stepper %}
{% step %}
Installieren Sie `ollama` falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen, [sehen Sie hier](#run-in-llama.cpp).

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

{% endstep %}

{% step %}
Führen Sie das Modell aus! Beachten Sie, dass Sie `ollama serve`in einem anderen Terminal aufrufen können, falls es fehlschlägt! Wir enthalten alle unsere Korrekturen und vorgeschlagenen Parameter (temperature usw.) in `params` in unserem Hugging-Face-Upload!\
\&#xNAN;**(NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, können Sie unsere TQ1\_0 (170GB Quant) verwenden:**

```bash
OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run hf.co/unsloth/DeepSeek-V3.1-Terminus-GGUF:TQ1_0
```

{% endstep %}

{% step %}
Um andere Quants auszuführen, müssen Sie zuerst die geteilten GGUF-Dateien zu einer einzigen zusammenführen, wie im folgenden Code. Danach müssen Sie das Modell lokal ausführen.

```bash
./llama.cpp/llama-gguf-split --merge \\
  DeepSeek-V3.1-Terminus-GGUF/DeepSeek-V3.1-Terminus-UD-Q2_K_XL/DeepSeek-V3.1-Terminus-UD-Q2_K_XL-00001-of-00006.gguf \
	merged_file.gguf
```

```bash
OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run merged_file.gguf
```

{% endstep %}

{% step %}
Open WebUI hat außerdem ein [Schritt-für-Schritt-Tutorial](https://docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/) zum Ausführen von R1 erstellt, und für V3.1 müssen Sie nur R1 durch den neuen V3.1-Quant ersetzen.
{% endstep %}
{% endstepper %}

### ✨ In llama.cpp ausführen

{% stepper %}
{% step %}
Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Wenn du `llama.cpp` direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q2\_K\_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ist ähnlich wie `ollama run` . Verwenden Sie `export LLAMA_CACHE="folder"` um zu erzwingen, dass `llama.cpp` an einem bestimmten Ort gespeichert wird. Denken Sie daran, dass das Modell nur eine maximale Kontextlänge von 128K hat.

{% hint style="success" %}
Bitte probiere `-ot ".ffn_.*_exps.=CPU"` verwenden, um alle MoE-Layer auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Layer auf 1 GPU unterbringen, was die Generierungsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Layer unterzubringen, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie `-ot ".ffn_(up|down)_exps.=CPU"` Dies lagert die MoE-Layer für Up- und Down-Projektionen aus.

Versuchen Sie `-ot ".ffn_(up)_exps.=CPU"` wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur die MoE-Layer für Up-Projektionen aus.

Und schließlich lagern Sie alle Layer aus via `-ot ".ffn_.*_exps.=CPU"` Dies verwendet am wenigsten VRAM.

Sie können den Regex auch anpassen, zum Beispiel `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` bedeutet, Gate-, Up- und Down-MoE-Layer auszulagern, aber nur ab der 6. Schicht.
{% endhint %}

```bash
export LLAMA_CACHE="unsloth/DeepSeek-V3.1-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/DeepSeek-V3.1-Terminus-GGUF:UD-Q2_K_XL \
    --jinja \
    --n-gpu-layers 99 \
    --temp 0.6 \\
    --top-p 0.95 \
    --min-p 0,01 \
    --ctx-size 16384 \
    --seed 3407 \\
    -ot ".ffn_.*_exps.=CPU"
```

{% endstep %}

{% step %}
Lade das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `UD-`Q2\_K\_XL (dynamisches 2-Bit-Quant) oder andere quantisierte Versionen wie `Q4_K_M` . Wir <mark style="background-color:green;">**empfehlen unser dynamisches 2,7-Bit-Quant**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**`UD-Q2_K_XL`**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**zu verwenden, um Größe und Genauigkeit auszubalancieren**</mark>.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal Ratenbegrenzungen auslösen, daher auf 0 setzen, um zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/DeepSeek-V3.1-Terminus-GGUF",
    local_dir = "unsloth/DeepSeek-V3.1-Terminus-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"], # Dynamisches 2-Bit Verwenden Sie "*UD-TQ1_0*" für dynamisches 1-Bit
)
```

{% endstep %}

{% step %}
Sie können `--threads 32` für die Anzahl der CPU-Threads bearbeiten, `--ctx-size 16384` für die Kontextlänge, `--n-gpu-layers 2` für GPU-Offloading, also für wie viele Layer. Versuchen Sie, dies anzupassen, wenn Ihrem GPU-Speicher der Platz ausgeht. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/DeepSeek-V3.1-Terminus-GGUF/UD-Q2_K_XL/DeepSeek-V3.1-Terminus-UD-Q2_K_XL-00001-of-00006.gguf \
    --jinja \
    --n-gpu-layers 99 \
    --temp 0.6 \\
    --top-p 0.95 \
    --min-p 0,01 \
    --ctx-size 16384 \
    --seed 3407 \\
    -ot ".ffn_.*_exps.=CPU"
```

{% endcode %}
{% endstep %}

{% step %}
Holen Sie sich die 1-Bit-Version (170 GB), wenn Sie nicht genügend kombinierten RAM und VRAM haben:

```python
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/DeepSeek-V3.1-Terminus-GGUF",
    local_dir = "unsloth/DeepSeek-V3.1-Terminus-GGUF",
    allow_patterns = ["*UD-TQ1_0*"], # Verwenden Sie "*UD-Q2_K_XL*" für dynamisches 2-Bit
)
```

{% endstep %}
{% endstepper %}

### ✨ Bereitstellen mit llama-server und der Completion-Bibliothek von OpenAI

Um llama-server für die Bereitstellung zu verwenden, nutzen Sie folgenden Befehl:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
    --model unsloth/DeepSeek-V3.1-Terminus-GGUF/DeepSeek-V3.1-Terminus-UD-TQ1_0.gguf \
    --alias "unsloth/DeepSeek-V3.1-Terminus" \
    --n-gpu-layers 999 \
    -ot ".ffn_.*_exps.=CPU" \
    --prio 3 \
    --min-p 0,01 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja
```

{% endcode %}

Verwenden Sie anschließend die Python-Bibliothek von OpenAI nach `pip install openai` :

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/DeepSeek-V3.1-Terminus",
    messages = [{"role": "user", "content": "Was ist 2+2?"},],
)
print(completion.choices[0].message.content)
```

## :minidisc:Modell-Uploads

**ALLE unsere Uploads** - einschließlich derjenigen, die nicht auf imatrix-basiert oder dynamisch sind, verwenden unseren Kalibrierungsdatensatz, der speziell für Konversations-, Coding- und Sprachaufgaben optimiert ist.

* Die vollständigen DeepSeek-V3.1-Modell-Uploads unten:

Wir haben auch [IQ4\_NL](https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/IQ4_NL) und [Q4\_1](https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/Q4_1) Quants hochgeladen, die speziell auf ARM- bzw. Apple-Geräten schneller laufen.

<table data-full-width="false"><thead><tr><th>MoE-Bits</th><th>Typ + Link</th><th>Festplattengröße</th><th>Details</th></tr></thead><tbody><tr><td>1,66 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF?show_file_info=DeepSeek-V3.1-UD-TQ1_0.gguf">TQ1_0</a></td><td><strong>170 GB</strong></td><td>1,92/1,56 Bit</td></tr><tr><td>1,78 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/UD-IQ1_S">IQ1_S</a></td><td><strong>185 GB</strong></td><td>2,06/1,56 Bit</td></tr><tr><td>1,93 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/UD-IQ1_M">IQ1_M</a></td><td><strong>200 GB</strong></td><td>2.5/2.06/1.56</td></tr><tr><td>2,42 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/UD-IQ2_XXS">IQ2_XXS</a></td><td><strong>216 GB</strong></td><td>2,5/2,06 Bit</td></tr><tr><td>2,71 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/UD-Q2_K_XL">Q2_K_XL</a></td><td><strong>251GB</strong></td><td>3,5/2,5 Bit</td></tr><tr><td>3,12 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/UD-IQ3_XXS">IQ3_XXS</a></td><td><strong>273 GB</strong></td><td>3,5/2,06 Bit</td></tr><tr><td>3,5 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/UD-Q3_K_XL">Q3_K_XL</a></td><td><strong>296 GB</strong></td><td>4,5/3,5 Bit</td></tr><tr><td>4,5 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/UD-Q4_K_XL">Q4_K_XL</a></td><td><strong>384 GB</strong></td><td>5,5/4,5 Bit</td></tr><tr><td>5,5 Bit</td><td><a href="https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/UD-Q5_K_XL">Q5_K_XL</a></td><td><strong>481 GB</strong></td><td>6,5/5,5 Bit</td></tr></tbody></table>

Wir haben auch Versionen in [BF16-Format](https://huggingface.co/unsloth/DeepSeek-V3.1-BF16)und originalem [FP8-(Float8)-Format](https://huggingface.co/unsloth/DeepSeek-V3.1).

## :snowboarder: Die Generierungsgeschwindigkeit verbessern

Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Layer oder ganze Layer auszulagern.

Normalerweise `-ot ".ffn_.*_exps.=CPU"` lagert alle MoE-Layer auf die CPU aus! Dadurch können Sie effektiv alle Nicht-MoE-Layer auf 1 GPU unterbringen, was die Generierungsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Layer unterzubringen, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie `-ot ".ffn_(up|down)_exps.=CPU"` Dies lagert die MoE-Layer für Up- und Down-Projektionen aus.

Versuchen Sie `-ot ".ffn_(up)_exps.=CPU"` wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur die MoE-Layer für Up-Projektionen aus.

Sie können den Regex auch anpassen, zum Beispiel `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` bedeutet, Gate-, Up- und Down-MoE-Layer auszulagern, aber nur ab der 6. Schicht.

Die [neueste llama.cpp-Version](https://github.com/ggml-org/llama.cpp/pull/14363) führt außerdem einen High-Throughput-Modus ein. Verwenden Sie `llama-parallel`. Lesen Sie mehr darüber [hier](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel). Sie können auch **den KV-Cache auf 4 Bit quantisieren** zum Beispiel um den VRAM-/RAM-Datenverkehr zu reduzieren, was den Generierungsprozess ebenfalls beschleunigen kann.

## 📐Wie man langen Kontext unterbringt (volle 128K)

Um längeren Kontext unterzubringen, können Sie **KV-Cache-Quantisierung** verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generierungsgeschwindigkeit aufgrund des geringeren RAM-/VRAM-Datenverkehrs erhöhen. Die zulässigen Optionen für die K-Quantisierung (Standard ist `f16`) sind unten aufgeführt.

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

Sie sollten die `_1` Varianten verwenden, um die Genauigkeit etwas zu erhöhen, auch wenn es etwas langsamer ist. Zum Beispiel `q4_1, q5_1`

Sie können auch den V-Cache quantisieren, aber dafür müssen Sie **llama.cpp mit Flash Attention-Unterstützung kompilieren via** -DGGML\_CUDA\_FA\_ALL\_QUANTS=ON `, und`--flash-attn `verwenden, um es zu aktivieren. Dann können Sie es zusammen mit` --cache-type-k `--cache-type-v f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1` :

`verwenden`


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/deepseek-v3.1-how-to-run-locally.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
