🐋DeepSeek-R1-0528: Anleitung zum lokalen Betrieb

Eine Anleitung, wie man DeepSeek-R1-0528 inklusive Qwen3 auf dem eigenen lokalen Gerät ausführt!

DeepSeek-R1-0528 ist DeepSeeks neues Update für ihr R1-Reasoning-Modell. Das vollständige Modell mit 671 Milliarden Parametern benötigt 715 GB Speicherplatz. Die quantisierte dynamische 1,66-Bit Version verwendet 162 GB (-80% Größenreduzierung). GGUF: DeepSeek-R1-0528-GGUF

DeepSeek hat außerdem eine R1-0528 distilled Version veröffentlicht, die durch Feintuning von Qwen3 (8B) erstellt wurde. Die Distillation erreicht eine ähnliche Leistung wie Qwen3 (235B). Sie können auch Qwen3 Distill feinabstimmen mit Unsloth. Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Leistung, das heißt, Sie können quantisierte DeepSeek-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen.

Tutorial-Navigation:

In llama.cpp ausführen Ausführung in Ollama/Open WebUI Feinabstimmung von R1-0528

NEU: Bedeutende Verbesserungen beim Tool-Calling und Korrekturen an Chat-Vorlagen. Neu TQ1_0 dynamische 1,66-Bit-Quantisierung - 162 GB groß. Ideal für 192 GB RAM (inkl. Mac) und Ollama-Nutzer. Probieren: ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

⚙️ Empfohlene Einstellungen

Für DeepSeek-R1-0528-Qwen3-8B passt das Modell praktisch in jede Umgebung, sogar in Systeme mit nur 20 GB RAM. Es ist kein Vorbereiten erforderlich. Für das vollständige R1-0528-Modell mit 715 GB benötigen Sie jedoch zusätzliche Vorbereitung. Die 1,78-Bit-(IQ1_S)-Quantisierung passt in eine einzelne 24-GB-GPU (mit Auslagerung aller Schichten). Erwartet werden bei dieser Konfiguration etwa 5 Token/s, wenn Sie zusätzlich 128 GB RAM haben.

Es wird empfohlen, mindestens 64 GB RAM zu haben, um diese Quantisierung auszuführen (ohne GPU erhalten Sie etwa 1 Token/s). Für optimale Leistung benötigen Sie mindestens 180 GB einheitlichen Speicher oder 180 GB kombinierter RAM+VRAM für 5+ Token/s.

Wir empfehlen die Verwendung unserer 2,7-Bit-(Q2_K_XL) oder 2,4-Bit-(IQ2_XXS) Quantisierung, um Größe und Genauigkeit auszugleichen! Die 2,4-Bit-Variante funktioniert ebenfalls gut.

Obwohl nicht zwingend erforderlich: Für beste Leistung sollten VRAM + RAM kombiniert der Größe der heruntergeladenen Quantisierung entsprechen.

🐳 Offiziell empfohlene Einstellungen:

Laut DeepSeek, dies sind die empfohlenen Einstellungen für die R1-Inferenz (R1-0528 und Qwen3-Distill sollten dieselben Einstellungen verwenden):

Stellen Sie die Temperatur 0,6 um Wiederholungen und Inkohärenz zu reduzieren.
Setzen Sie top_p auf 0.95 (empfohlen)
Führen Sie mehrere Tests durch und mitteln Sie die Ergebnisse für eine verlässliche Bewertung.

🔢 Chat-Template/Prompt-Format

R1-0528 verwendet dieselbe Chat-Vorlage wie das ursprüngliche R1-Modell. Sie müssen nicht erzwingen <think>\n , aber Sie können es trotzdem hinzufügen!

<｜begin▁of▁sentence｜><｜User｜>What is 1+1?<｜Assistant｜>It's 2.<｜end▁of▁sentence｜><｜User｜>Explain more!<｜Assistant｜>

Ein BOS wird zwangsweise hinzugefügt, und ein EOS trennt jede Interaktion. Um doppelte BOS-Tokens während der Inferenz zu vermeiden, solltest du nur tokenizer.encode(..., add_special_tokens = False) da die Chat-Vorlage automatisch auch ein BOS-Token hinzufügt. Für llama.cpp / GGUF-Inferenz sollten Sie das BOS überspringen, da es automatisch hinzugefügt wird:

<｜User｜>What is 1+1?<｜Assistant｜>

Die <think> und </think> Token erhalten ihre eigenen zugewiesenen Tokens.

Model-Uploads

ALLE unsere Uploads - einschließlich derjenigen, die nicht imatrix-basiert oder dynamisch sind, nutzen unseren Kalibrierungsdatensatz, der speziell für Konversations-, Coding- und Sprachaufgaben optimiert ist.

Qwen3 (8B) Distill: DeepSeek-R1-0528-Qwen3-8B-GGUF
Vollständige DeepSeek-R1-0528 Modell-Uploads unten:

Wir haben außerdem hochgeladen IQ4_NL und Q4_1 Quants, die speziell für ARM- bzw. Apple-Geräte jeweils schneller laufen.

MoE Bits

Typ + Link

Platzbedarf auf Datenträger

Details

1,66bit

TQ1_0

162GB

1,92/1,56bit

1,78bit

IQ1_S

185GB

2,06/1,56bit

1,93bit

IQ1_M

200GB

2.5/2.06/1.56

2,42bit

IQ2_XXS

216GB

2,5/2,06bit

2,71bit

Q2_K_XL

251GB

3,5/2,5bit

3,12bit

IQ3_XXS

273GB

3,5/2,06bit

3,5bit

Q3_K_XL

296GB

4,5/3,5bit

4,5bit

Q4_K_XL

384GB

5,5/4,5bit

5,5bit

Q5_K_XL

481GB

6,5/5,5bit

Wir haben auch Versionen in BF16-Formathochgeladen, und originale FP8 (float8)-Format.

Führen Sie DeepSeek-R1-0528 Tutorials aus:

🦙 Ausführung in Ollama/Open WebUI

In Ollama ausführen Installieren Sie falls Sie das noch nicht getan haben! Sie können nur Modelle bis zu 32B Größe ausführen. Um das vollständige 720GB R1-0528 Modell auszuführen, falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,.

apt-get update
siehe hier
apt-get install pciutils -y

curl -fsSL https://ollama.com/install.sh | sh Führen Sie das Modell aus! Beachten Sie, dass Sieollama serve in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params

ollama run hf.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_XL

(NEU) Um das vollständige R1-0528 Modell in Ollama auszuführen, können Sie unsere TQ1_0 (162GB Quant):

OLLAMA_MODELS=unsloth_downloaded_models ollama serve &

ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

🦙 Vollständiges R1-0528 auf Ollama ausführen/Open WebUI

Open WebUI hat ein Schritt-für-Schritt-Tutorial erstellt, wie man R1 ausführt; für R1-0528 müssen Sie lediglich R1 durch die neue 0528-Quant ersetzen: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/

(NEU) Um das vollständige R1-0528 Modell in Ollama auszuführen, können Sie unsere TQ1_0 (162GB Quant):

OLLAMA_MODELS=unsloth_downloaded_models ollama serve &

ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

Wenn Sie eine der Quantisierungen verwenden möchten, die größer sind als TQ1_0 (162GB) auf Ollama, müssen Sie zuerst die 3 GGUF-Teildateien zu einer Datei zusammenführen wie im folgenden Code. Danach müssen Sie das Modell lokal ausführen.

Um andere Quants auszuführen, müssen Sie zunächst die GGUF-Split-Dateien zu einer Datei zusammenführen, wie der folgende Code zeigt. Danach müssen Sie das Modell lokal ausführen.
  DeepSeek-R1-0528-GGUF/DeepSeek-R1-0528-UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00003.gguf \
	GLM-4.7-GGUF/GLM-4.7-UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \

✨ Qwen3-distilliertes R1 in llama.cpp ausführen

Um das vollständige 720GB R1-0528 Modell auszuführen, falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,. Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Verwenden Sie dann llama.cpp direkt, um das Modell herunterzuladen:

./llama.cpp/llama-cli -hf unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_XL --jinja

✨ Vollständiges R1-0528 auf llama.cpp ausführen

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp

Wenn du llama.cpp um Modelle direkt zu laden, können Sie Folgendes tun: (:IQ1_S) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um llama.cpp um an einen bestimmten Ort zu speichern.

Bitte probieren Sie -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert Up- und Down-Projektions-MoE-Schichten aus.

Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur Up-Projektions-MoE-Schichten aus.

Und schließlich lagern Sie alle Schichten über -ot ".ffn_.*_exps.=CPU" aus.

Sie können auch den Regex anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, aber nur ab der 6. Schicht.

export LLAMA_CACHE="unsloth/DeepSeek-R1-0528-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/DeepSeek-R1-0528-GGUF:IQ1_S \
    --cache-type-k q4_0 \
    --threads -1 \
    --n-gpu-layers 99 \
    --prio 3 \
    --temp 0.6 \
    --top-p 0.95 \
    --min-p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU"

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen UD-IQ1_S(dynamischer 1,78bit-Quant) oder andere quantisierte Versionen wie Q4_K_M Q4_K_XL . Wir empfehlen die Verwendung unseres 2,7-Bit Dynamic Quant UD-Q2_K_XL. Mehr Versionen unter: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal Ratenbegrenzung verursachen, also auf 0 setzen, um zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/DeepSeek-R1-0528-GGUF",
    local_dir = "unsloth/DeepSeek-R1-0528-GGUF",
    allow_patterns = ["*UD-IQ1_S*"], # Dynamisch 1bit (168GB) Verwenden Sie "*UD-Q2_K_XL*" für dynamisch 2bit (251GB)
)

Führen Sie Unsloths Flappy-Bird-Test wie in unserer Anleitung zur dynamischen 1,58-Bit-Quantisierung für DeepSeek R1 beschrieben aus.
Bearbeiten Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für Kontextlänge, --n-gpu-layers 2

./llama.cpp/llama-cli \
    --model unsloth/DeepSeek-R1-0528-GGUF/UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00004.gguf \
    --cache-type-k q4_0 \
    --threads -1 \
    --n-gpu-layers 99 \
    --prio 3 \
    --temp 0.6 \
    --top-p 0.95 \
    --min-p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU" \
    -no-cnv \
    --prompt "<｜User｜>Create a Flappy Bird game in Python. You must include these things:\n1. You must use pygame.\n2. The background color should be randomly chosen and is a light shade. Start with a light blue color.\n3. Pressing SPACE multiple times will accelerate the bird.\n4. The bird's shape should be randomly chosen as a square, circle or triangle. The color should be randomly chosen as a dark color.\n5. Place on the bottom some land colored as dark brown or yellow chosen randomly.\n6. Make a score shown on the top right side. Increment if you pass pipes and don't hit them.\n7. Make randomly spaced pipes with enough space. Color them randomly as dark green or light brown or a dark gray shade.\n8. When you lose, show the best score. Make the text inside the screen. Pressing q or Esc will quit the game. Restarting is pressing SPACE again.\nThe final game should be inside a markdown section in Python. Check your code for errors and fix them before the final markdown section.<｜Assistant｜>"

🎱 Heptagon-Test

Sie können unsere dynamischen Quants auch über testen r/Localllama welches das Modell testet, indem es eine einfache Physik-Engine erstellt, um Kugeln in einem sich drehenden, eingeschlossenen Heptagon rotieren zu lassen.

Voller Prompt zum Ausführen des Modells

./llama.cpp/llama-cli \
    --model unsloth/DeepSeek-R1-0528-GGUF/UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00004.gguf \
    --cache-type-k q4_0 \
    --threads -1 \
    --n-gpu-layers 99 \
    --prio 3 \
    --temp 0.6 \
    --top_p 0.95 \
    --min_p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU" \
    -no-cnv \
    --prompt "<｜User｜>Schreibe ein Python-Programm, das 20 Kugeln zeigt, die in einem rotierenden Heptagon aufspringen:\n- Alle Kugeln haben denselben Radius.\n- Alle Kugeln haben eine Nummer von 1 bis 20.\n- Alle Kugeln fallen beim Start vom Zentrum des Heptagons.\n- Farben sind: #f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35\n- Die Kugeln sollten von Schwerkraft und Reibung beeinflusst werden und realistisch von den rotierenden Wänden abprallen. Es sollte auch Kollisionen zwischen Kugeln geben.\n- Das Material aller Kugeln bestimmt, dass die Rückprallhöhe beim Aufprall nicht den Radius des Heptagons überschreitet, aber größer als der Kugelradius ist.\n- Alle Kugeln rotieren mit Reibung, die Nummern auf den Kugeln können verwendet werden, um die Rotation der Kugel anzuzeigen.\n- Das Heptagon dreht sich um sein Zentrum, und die Drehgeschwindigkeit beträgt 360 Grad pro 5 Sekunden.\n- Die Größe des Heptagons sollte groß genug sein, um alle Kugeln zu enthalten.\n- Verwenden Sie nicht die pygame-Bibliothek; implementieren Sie Algorithmen zur Kollisionsdetektion und Kollisionsantwort selbst. Die folgenden Python-Bibliotheken sind erlaubt: tkinter, math, numpy, dataclasses, typing, sys.\n- Alle Codes sollten in einer einzelnen Python-Datei abgelegt werden.<｜Assistant｜>"

🦥 Feinabstimmung von DeepSeek-R1-0528 mit Unsloth

Um fein abzustimmen DeepSeek-R1-0528-Qwen3-8B mit Unsloth haben wir ein neues GRPO-Notebook erstellt, das eine benutzerdefinierte Belohnungsfunktion enthält, die die mehrsprachige Ausgabe deutlich verbessert - insbesondere erhöht sie die Rate gewünschter Sprachantworten (in unserem Beispiel verwenden wir Indonesisch, Sie können aber jede Sprache verwenden) um mehr als 40%.

DeepSeek-R1-0528-Qwen3-8B Notebook - neu

Während viele Reasoning-LLMs mehrsprachige Fähigkeiten haben, erzeugen sie oft gemischte Sprachausgaben in ihren Reasoning-Traces, die Englisch mit der Zielsprache kombinieren. Unsere Belohnungsfunktion verringert dieses Problem effektiv, indem sie Ausgaben in der gewünschten Sprache stark fördert, was zu einer erheblichen Verbesserung der Sprachkonsistenz führt.

Diese Belohnungsfunktion ist auch vollständig anpassbar, sodass Sie sie für andere Sprachen oder zur Feinabstimmung für bestimmte Domänen oder Anwendungsfälle anpassen können.

Das Beste an dieser gesamten Belohnungsfunktion und dem Notebook ist: Sie benötigen KEIN Sprach-Datenset, um Ihr Modell dazu zu bringen, eine bestimmte Sprache zu lernen. Das Notebook enthält kein indonesisches Datenset.

Unsloth macht die R1-Qwen3 Distill-Feinabstimmung 2× schneller, verwendet 70% weniger VRAM und unterstützt 8× längere Kontextlängen.

VorherigeDeepSeek-V3.1 NächsteLiquid LFM2.5

Zuletzt aktualisiert vor 10 Stunden

War das hilfreich?

hashtag⚙️ Empfohlene Einstellungen

hashtag🐳 Offiziell empfohlene Einstellungen:

hashtag🔢 Chat-Template/Prompt-Format

hashtagModel-Uploads

hashtagFühren Sie DeepSeek-R1-0528 Tutorials aus:

hashtag🦙 Ausführung in Ollama/Open WebUI

hashtag🦙 Vollständiges R1-0528 auf Ollama ausführen/Open WebUI

hashtag✨ Qwen3-distilliertes R1 in llama.cpp ausführen

hashtag✨ Vollständiges R1-0528 auf llama.cpp ausführen

hashtag🎱 Heptagon-Test

hashtag🦥 Feinabstimmung von DeepSeek-R1-0528 mit Unsloth

⚙️ Empfohlene Einstellungen

🐳 Offiziell empfohlene Einstellungen:

🔢 Chat-Template/Prompt-Format

Model-Uploads

Führen Sie DeepSeek-R1-0528 Tutorials aus:

🦙 Ausführung in Ollama/Open WebUI

🦙 Vollständiges R1-0528 auf Ollama ausführen/Open WebUI

✨ Qwen3-distilliertes R1 in llama.cpp ausführen

✨ Vollständiges R1-0528 auf llama.cpp ausführen

🎱 Heptagon-Test

🦥 Feinabstimmung von DeepSeek-R1-0528 mit Unsloth