🐋DeepSeek-R1: Anleitung zum lokalen Betrieb

Eine Anleitung, wie du unsere 1,58-Bit-Dynamic-Quants für DeepSeek-R1 mit llama.cpp verwenden kannst.

Siehe bitte https://docs.unsloth.ai/basics/deepseek-r1-0528-how-to-run-locally für eine aktualisierte DeepSeek R1-0528 (Version vom 28. Mai 2025)

Verwendung von llama.cpp (empfohlen)

Vergiss nicht <｜User｜> und <｜Assistant｜> Tokens! - Oder verwende einen Chat-Template-Formatter
Hole das neueste llama.cpp unter: github.com/ggml-org/llama.cpp. Du kannst auch den untenstehenden Build-Anweisungen folgen. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=ON -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Am besten ist es, --min-p 0.05 zu verwenden, um sehr seltene Token-Vorhersagen entgegenzuwirken - ich fand dies besonders für das 1.58bit-Modell als gut funktionierend.
Lade das Modell herunter über:

# pip install huggingface_hub hf_transfer
# import os # Optional für schnelleren Download
# os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

from huggingface_hub import snapshot_download
snapshot_download(
  repo_id = "unsloth/DeepSeek-R1-GGUF",
  local_dir = "DeepSeek-R1-GGUF",
  allow_patterns = ["*UD-IQ1_S*"], # Wähle Quant-Typ UD-IQ1_S für 1.58bit
)

Beispiel mit Q4_0 K quantisiertem Cache Beachte -no-cnv deaktiviert den automatischen Konversationsmodus

./llama.cpp/llama-cli \
    --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    --cache-type-k q4_0 \
    -no-cnv --prio 2 \
    --temp 0.6 \
    --ctx-size 8192 \
    --seed 3407 \
    --prompt "<｜User｜>What is 1+1?<｜Assistant｜>"

Beispielausgabe:

 <think>
 Okay, also muss ich herausfinden, was 1 plus 1 ist. Hm, wo fange ich überhaupt an? Ich erinnere mich aus der Schule, dass das Addieren von Zahlen ziemlich grundlegend ist, aber ich möchte sicherstellen, dass ich es richtig verstehe.
 Lass mich nachdenken, 1 plus 1. Also habe ich einen Gegenstand und füge einen weiteren hinzu. Vielleicht wie ein Apfel plus ein weiterer Apfel. Wenn ich einen Apfel habe und mir jemand einen weiteren gibt, habe ich jetzt zwei Äpfel. Also sollte 1 plus 1 2 sein. Das macht Sinn.
 Moment, aber manchmal kann Mathematik knifflig sein. Könnte es etwas anderes sein? Zum Beispiel in einem anderen Zahlensystem? Aber ich denke, die Frage ist einfach, mit normalen Zahlen, nicht in Binär oder Hexadezimal oder so.
 Ich erinnere mich auch, dass Addition in der Arithmetik Mengen kombiniert. Wenn man zwei Mengen von 1 hat, ergibt die Kombination eine Summe von 2. Ja, das scheint richtig zu sein.
 Gibt es ein Szenario, in dem 1 plus 1 nicht 2 wäre? Mir fällt keines ein...

Wenn du eine GPU (z. B. RTX 4090) mit 24 GB hast, kannst du mehrere Layer auf die GPU auslagern für schnellere Verarbeitung. Wenn du mehrere GPUs hast, kannst du wahrscheinlich mehr Layer auslagern.

./llama.cpp/llama-cli \
    --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    --cache-type-k q4_0 \
    -no-cnv --prio 2 \
    --n-gpu-layers 7 \
    --temp 0.6 \
    --ctx-size 8192 \
    --seed 3407 \
    --prompt "<｜User｜>Create a Flappy Bird game in Python.<｜Assistant｜>"

Um unser Flappy Bird-Beispiel wie in unserem Blogbeitrag hier zu testen: https://unsloth.ai/blog/deepseekr1-dynamic, können wir das 2. Beispiel unten mit unserem 1.58bit dynamischen Quant erzeugen:

Original DeepSeek R1

1.58bit Dynamisches Quant

Der verwendete Prompt ist wie folgt:

<｜User｜>Erstelle ein Flappy Bird-Spiel in Python. Du musst diese Dinge einschließen:
1. Du musst pygame verwenden.
2. Die Hintergrundfarbe sollte zufällig gewählt sein und einen hellen Ton haben. Beginne mit einer hellblauen Farbe.
3. Mehrmaliges Drücken der LEERTASTE beschleunigt den Vogel.
4. Die Form des Vogels sollte zufällig als Quadrat, Kreis oder Dreieck gewählt werden. Die Farbe sollte zufällig als dunkle Farbe gewählt werden.
5. Platziere unten etwas Land, das zufällig dunkelbraun oder gelb gefärbt ist.
6. Zeige eine Punktzahl oben rechts an. Erhöhe sie, wenn du Rohre passiert und nicht getroffen hast.
7. Erzeuge zufällig platzierte Rohre mit genügend Abstand. Färbe sie zufällig dunkelgrün oder hellbraun oder in einem dunklen Grauton.
8. Wenn du verlierst, zeige die Bestpunktzahl. Mache den Text innerhalb des Bildschirms. Das Drücken von q oder Esc beendet das Spiel. Neustarten erfolgt durch erneutes Drücken der LEERTASTE.
Das fertige Spiel sollte in einem Markdown-Abschnitt in Python stehen. Überprüfe deinen Code auf Fehler und behebe sie vor dem finalen Markdown-Abschnitt.<｜Assistant｜>

Um llama.cpp mit diesem Beispiel aufzurufen, machen wir:

./llama.cpp/llama-cli \
    --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    --cache-type-k q4_0 \
    -no-cnv --prio 2 \
    --n-gpu-layers 7 \
    --temp 0.6 \
    --ctx-size 8192 \
    --seed 3407 \
    --prompt "<｜User｜>Create a Flappy Bird game in Python. You must include these things:\n1. You must use pygame.\n2. The background color should be randomly chosen and is a light shade. Start with a light blue color.\n3. Pressing SPACE multiple times will accelerate the bird.\n4. The bird's shape should be randomly chosen as a square, circle or triangle. The color should be randomly chosen as a dark color.\n5. Place on the bottom some land colored as dark brown or yellow chosen randomly.\n6. Make a score shown on the top right side. Increment if you pass pipes and don't hit them.\n7. Make randomly spaced pipes with enough space. Color them randomly as dark green or light brown or a dark gray shade.\n8. When you lose, show the best score. Make the text inside the screen. Pressing q or Esc will quit the game. Restarting is pressing SPACE again.\nThe final game should be inside a markdown section in Python. Check your code for errors and fix them before the final markdown section.<｜Assistant｜>"

Wenn du außerdem die Gewichte zusammenführen möchtest, um sie z. B. in Ollama zu verwenden, benutze dieses Skript:

./llama.cpp/llama-gguf-split --merge \
    DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    merged_file.gguf

DeepSeek R1 hat 61 Layer. Zum Beispiel kannst du bei einer 24GB- oder 80GB-GPU erwarten, nach Abrunden (um 1 reduzieren, wenn es zu Out-of-Memory kommt) auszulagern:

Quant

Dateigröße

24GB GPU

80GB GPU

2x80GB GPU

1.58bit

131GB

Alle Layer 61

1.73bit

158GB

2.22bit

183GB

2.51bit

212GB

Ausführung auf Mac / Apple-Geräten

Bei Apple Metal-Geräten sei vorsichtig mit --n-gpu-layers. Wenn der Rechner wegen zu wenig Speicher abstürzt, reduziere diesen Wert. Bei einer Maschine mit 128 GB Unified Memory solltest du etwa 59 Layer oder so auslagern können.

./llama.cpp/llama-cli \
    --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    --cache-type-k q4_0 \
    --prio 2 \
    --temp 0.6 \
    --ctx-size 8192 \
    --seed 3407 \
    --n-gpu-layers 59 \
    -no-cnv \
    --prompt "<｜User｜>Create a Flappy Bird game in Python.<｜Assistant｜>"

Ausführung in Ollama/Open WebUI

Open WebUI hat ein Schritt-für-Schritt-Tutorial zum Ausführen von R1 hier erstellt: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/ Wenn du Ollama für Inferenz auf GGUFs verwenden möchtest, musst du zuerst die 3 GGUF-Split-Dateien zu 1 zusammenführen wie im folgenden Code. Dann musst du das Modell lokal ausführen.

./llama.cpp/llama-gguf-split --merge \
  DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
	merged_file.gguf

DeepSeek Chat-Template

Alle destillierten Versionen und das Hauptmodell R1 mit 671B verwenden dasselbe Chat-Template:

<｜begin▁of▁sentence｜><｜User｜>What is 1+1?<｜Assistant｜>It's 2.<｜end▁of▁sentence｜><｜User｜>Explain more!<｜Assistant｜>

Ein BOS wird zwangsweise hinzugefügt, und ein EOS trennt jede Interaktion. Um doppelte BOS-Tokens während der Inferenz zu vermeiden, solltest du nur tokenizer.encode(..., add_special_tokens = False) aufrufen, da das Chat-Template ebenfalls automatisch ein BOS-Token hinzufügt. Für llama.cpp / GGUF-Inferenz solltest du das BOS überspringen, da es automatisch hinzugefügt wird.

<｜User｜>What is 1+1?<｜Assistant｜>

Die <think>- und </think>-Tokens erhalten eigene zugewiesene Token. Bei den destillierten Versionen für Qwen und Llama werden einige Tokens umgemappt, während Qwen zum Beispiel kein BOS-Token hatte, sodass stattdessen <|object_ref_start|> verwendet werden musste. Tokenizer-ID-Zuordnungen:

Token

Distill Qwen

Distill Llama

<think>

128798

151648

128013

</think>

128799

151649

128014

<|begin_of_sentence|>

151646

128000

<|end_of_sentence|>

151643

128001

<|User|>

128803

151644

128011

<|Assistant|>

128804

151645

128012

Padding-Token

151654

128004

Ursprüngliche Tokens in Modellen:

Token

Qwen 2.5 32B Base

Llama 3.3 70B Instruct

<think>

<|box_start|>

<|reserved_special_token_5|>

</think>

<|box_end|>

<|reserved_special_token_6|>

<｜begin▁of▁sentence｜>

<|object_ref_start|>

<|begin_of_text|>

<｜end▁of▁sentence｜>

<|endoftext|>

<|end_of_text|>

<｜User｜>

<|im_start|>

<|reserved_special_token_3|>

<｜Assistant｜>

<|im_end|>

<|reserved_special_token_4|>

Padding-Token

<|vision_pad|>

<|finetune_right_pad_id|>

Alle destillierten und die ursprünglichen R1-Versionen scheinen versehentlich das Padding-Token auf <｜end▁of▁sentence｜> gesetzt zu haben, was meistens keine gute Idee ist, besonders wenn du weiter auf diesen Reasoning-Modellen feinabstimmen möchtest. Dies verursacht endlose Generationen, da die meisten Frameworks das EOS-Token als -100 maskieren. Wir haben alle destillierten und die ursprünglichen R1-Versionen mit dem korrekten Padding-Token korrigiert (Qwen verwendet <|vision_pad|>, Llama verwendet <|finetune_right_pad_id|> und R1 verwendet <｜▁pad▁｜> oder unser hinzugefügtes <｜PAD▁TOKEN｜>).

GGUF R1 Tabelle

MoE Bits

Typ

Platzbedarf auf Datenträger

Genauigkeit

Link

Details

1.58bit

UD-IQ1_S

131GB

Fair

Link

MoE alles 1.56bit. down_proj in MoE Mischung aus 2.06/1.56bit

1.73bit

UD-IQ1_M

158GB

Gut

Link

MoE alles 1.56bit. down_proj in MoE links bei 2.06bit

2.22bit

UD-IQ2_XXS

183GB

Besser

Link

MoE alles 2.06bit. down_proj in MoE Mischung aus 2.5/2.06bit

2.51bit

UD-Q2_K_XL

212GB

Am besten

Link

MoE alles 2.5bit. down_proj in MoE Mischung aus 3.5/2.5bit

VorherigeDeepSeek-V3-0324 NächsteDeepSeek-R1 Dynamic 1,58-Bit

Zuletzt aktualisiert vor 10 Stunden

War das hilfreich?

hashtagVerwendung von llama.cpp (empfohlen)

hashtagAusführung auf Mac / Apple-Geräten

hashtagAusführung in Ollama/Open WebUI

hashtagDeepSeek Chat-Template

hashtagGGUF R1 Tabelle

Verwendung von llama.cpp (empfohlen)

Ausführung auf Mac / Apple-Geräten

Ausführung in Ollama/Open WebUI

DeepSeek Chat-Template

GGUF R1 Tabelle