🐋DeepSeek-R1-0528: Anleitung zum lokalen Betrieb
Eine Anleitung, wie man DeepSeek-R1-0528 inklusive Qwen3 auf dem eigenen lokalen Gerät ausführt!
DeepSeek-R1-0528 ist DeepSeeks neues Update für ihr R1-Reasoning-Modell. Das vollständige Modell mit 671 Milliarden Parametern benötigt 715 GB Speicherplatz. Die quantisierte dynamische 1,66-Bit Version verwendet 162 GB (-80% Größenreduzierung). GGUF: DeepSeek-R1-0528-GGUF
DeepSeek hat außerdem eine R1-0528 distilled Version veröffentlicht, die durch Feintuning von Qwen3 (8B) erstellt wurde. Die Distillation erreicht eine ähnliche Leistung wie Qwen3 (235B). Sie können auch Qwen3 Distill feinabstimmen mit Unsloth. Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Leistung, das heißt, Sie können quantisierte DeepSeek-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen.
Tutorial-Navigation:
In llama.cpp ausführenAusführung in Ollama/Open WebUIFeinabstimmung von R1-0528
NEU: Bedeutende Verbesserungen beim Tool-Calling und Korrekturen an Chat-Vorlagen.
Neu TQ1_0 dynamische 1,66-Bit-Quantisierung - 162 GB groß. Ideal für 192 GB RAM (inkl. Mac) und Ollama-Nutzer. Probieren: ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
⚙️ Empfohlene Einstellungen
Für DeepSeek-R1-0528-Qwen3-8B passt das Modell praktisch in jede Umgebung, sogar in Systeme mit nur 20 GB RAM. Es ist kein Vorbereiten erforderlich. Für das vollständige R1-0528-Modell mit 715 GB benötigen Sie jedoch zusätzliche Vorbereitung. Die 1,78-Bit-(IQ1_S)-Quantisierung passt in eine einzelne 24-GB-GPU (mit Auslagerung aller Schichten). Erwartet werden bei dieser Konfiguration etwa 5 Token/s, wenn Sie zusätzlich 128 GB RAM haben.
Es wird empfohlen, mindestens 64 GB RAM zu haben, um diese Quantisierung auszuführen (ohne GPU erhalten Sie etwa 1 Token/s). Für optimale Leistung benötigen Sie mindestens 180 GB einheitlichen Speicher oder 180 GB kombinierter RAM+VRAM für 5+ Token/s.
Wir empfehlen die Verwendung unserer 2,7-Bit-(Q2_K_XL) oder 2,4-Bit-(IQ2_XXS) Quantisierung, um Größe und Genauigkeit auszugleichen! Die 2,4-Bit-Variante funktioniert ebenfalls gut.
Obwohl nicht zwingend erforderlich: Für beste Leistung sollten VRAM + RAM kombiniert der Größe der heruntergeladenen Quantisierung entsprechen.
🐳 Offiziell empfohlene Einstellungen:
Laut DeepSeek, dies sind die empfohlenen Einstellungen für die R1-Inferenz (R1-0528 und Qwen3-Distill sollten dieselben Einstellungen verwenden):
Stellen Sie die Temperatur 0,6 um Wiederholungen und Inkohärenz zu reduzieren.
Setzen Sie top_p auf 0.95 (empfohlen)
Führen Sie mehrere Tests durch und mitteln Sie die Ergebnisse für eine verlässliche Bewertung.
🔢 Chat-Template/Prompt-Format
R1-0528 verwendet dieselbe Chat-Vorlage wie das ursprüngliche R1-Modell. Sie müssen nicht erzwingen <think>\n , aber Sie können es trotzdem hinzufügen!
Ein BOS wird zwangsweise hinzugefügt, und ein EOS trennt jede Interaktion. Um doppelte BOS-Tokens während der Inferenz zu vermeiden, solltest du nur tokenizer.encode(..., add_special_tokens = False) da die Chat-Vorlage automatisch auch ein BOS-Token hinzufügt.
Für llama.cpp / GGUF-Inferenz sollten Sie das BOS überspringen, da es automatisch hinzugefügt wird:
Die <think> und </think> Token erhalten ihre eigenen zugewiesenen Tokens.
Model-Uploads
ALLE unsere Uploads - einschließlich derjenigen, die nicht imatrix-basiert oder dynamisch sind, nutzen unseren Kalibrierungsdatensatz, der speziell für Konversations-, Coding- und Sprachaufgaben optimiert ist.
Qwen3 (8B) Distill: DeepSeek-R1-0528-Qwen3-8B-GGUF
Vollständige DeepSeek-R1-0528 Modell-Uploads unten:
Wir haben außerdem hochgeladen IQ4_NL und Q4_1 Quants, die speziell für ARM- bzw. Apple-Geräte jeweils schneller laufen.
Wir haben auch Versionen in BF16-Formathochgeladen, und originale FP8 (float8)-Format.
Führen Sie DeepSeek-R1-0528 Tutorials aus:
🦙 Ausführung in Ollama/Open WebUI
In Ollama ausführen
Installieren Siefalls Sie das noch nicht getan haben! Sie können nur Modelle bis zu 32B Größe ausführen. Um das vollständige 720GB R1-0528 Modell auszuführen, falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,.
curl -fsSL https://ollama.com/install.sh | sh
Führen Sie das Modell aus! Beachten Sie, dass Sieollama servein einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) inparams
(NEU) Um das vollständige R1-0528 Modell in Ollama auszuführen, können Sie unsere TQ1_0 (162GB Quant):
🦙 Vollständiges R1-0528 auf Ollama ausführen/Open WebUI
Open WebUI hat ein Schritt-für-Schritt-Tutorial erstellt, wie man R1 ausführt; für R1-0528 müssen Sie lediglich R1 durch die neue 0528-Quant ersetzen: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/
(NEU) Um das vollständige R1-0528 Modell in Ollama auszuführen, können Sie unsere TQ1_0 (162GB Quant):
Wenn Sie eine der Quantisierungen verwenden möchten, die größer sind als TQ1_0 (162GB) auf Ollama, müssen Sie zuerst die 3 GGUF-Teildateien zu einer Datei zusammenführen wie im folgenden Code. Danach müssen Sie das Modell lokal ausführen.
✨ Qwen3-distilliertes R1 in llama.cpp ausführen
Um das vollständige 720GB R1-0528 Modell auszuführen, falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,. Hole dir die neueste
llama.cppauf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze-DGGML_CUDA=OFFdann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Verwenden Sie dann llama.cpp direkt, um das Modell herunterzuladen:
✨ Vollständiges R1-0528 auf llama.cpp ausführen
Hole dir die neueste
llama.cppauf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze-DGGML_CUDA=OFFdann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Wenn du
llama.cppum Modelle direkt zu laden, können Sie Folgendes tun: (:IQ1_S) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zuollama run. Verwenden Sieexport LLAMA_CACHE="folder"umllama.cppum an einen bestimmten Ort zu speichern.
Bitte probieren Sie -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert Up- und Down-Projektions-MoE-Schichten aus.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur Up-Projektions-MoE-Schichten aus.
Und schließlich lagern Sie alle Schichten über -ot ".ffn_.*_exps.=CPU" aus.
Sie können auch den Regex anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, aber nur ab der 6. Schicht.
Laden Sie das Modell herunter (nach der Installation
pip install huggingface_hub hf_transfer). Sie können wählenUD-IQ1_S(dynamischer 1,78bit-Quant) oder andere quantisierte Versionen wieQ4_K_MQ4_K_XL . Wirempfehlen die Verwendung unseres 2,7-Bit Dynamic QuantUD-Q2_K_XL. Mehr Versionen unter: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF
Führen Sie Unsloths Flappy-Bird-Test wie in unserer Anleitung zur dynamischen 1,58-Bit-Quantisierung für DeepSeek R1 beschrieben aus.
Bearbeiten
Sie können--threads 32für die Anzahl der CPU-Threads bearbeiten,--ctx-size 16384für Kontextlänge,--n-gpu-layers 2
🎱 Heptagon-Test
Sie können unsere dynamischen Quants auch über testen r/Localllama welches das Modell testet, indem es eine einfache Physik-Engine erstellt, um Kugeln in einem sich drehenden, eingeschlossenen Heptagon rotieren zu lassen.

🦥 Feinabstimmung von DeepSeek-R1-0528 mit Unsloth
Um fein abzustimmen DeepSeek-R1-0528-Qwen3-8B mit Unsloth haben wir ein neues GRPO-Notebook erstellt, das eine benutzerdefinierte Belohnungsfunktion enthält, die die mehrsprachige Ausgabe deutlich verbessert - insbesondere erhöht sie die Rate gewünschter Sprachantworten (in unserem Beispiel verwenden wir Indonesisch, Sie können aber jede Sprache verwenden) um mehr als 40%.
Während viele Reasoning-LLMs mehrsprachige Fähigkeiten haben, erzeugen sie oft gemischte Sprachausgaben in ihren Reasoning-Traces, die Englisch mit der Zielsprache kombinieren. Unsere Belohnungsfunktion verringert dieses Problem effektiv, indem sie Ausgaben in der gewünschten Sprache stark fördert, was zu einer erheblichen Verbesserung der Sprachkonsistenz führt.
Diese Belohnungsfunktion ist auch vollständig anpassbar, sodass Sie sie für andere Sprachen oder zur Feinabstimmung für bestimmte Domänen oder Anwendungsfälle anpassen können.
Das Beste an dieser gesamten Belohnungsfunktion und dem Notebook ist: Sie benötigen KEIN Sprach-Datenset, um Ihr Modell dazu zu bringen, eine bestimmte Sprache zu lernen. Das Notebook enthält kein indonesisches Datenset.
Unsloth macht die R1-Qwen3 Distill-Feinabstimmung 2× schneller, verwendet 70% weniger VRAM und unterstützt 8× längere Kontextlängen.
Zuletzt aktualisiert
War das hilfreich?

