🐋DeepSeek-R1-0528: Anleitung zum lokalen Betrieb
Eine Anleitung, wie man DeepSeek-R1-0528 einschließlich Qwen3 auf dem eigenen lokalen Gerät ausführt!
DeepSeek-R1-0528 ist DeepSeeks neues Update ihres R1-Reasoning-Modells. Das vollständige 671B-Parameter-Modell benötigt 715 GB Festplattenspeicher. Die quantisierte dynamische 1,66-Bit Version verwendet 162 GB (−80% Größenreduktion). GGUF: DeepSeek-R1-0528-GGUF
DeepSeek hat außerdem eine R1-0528-distillierte Version veröffentlicht, die durch Feinabstimmung von Qwen3 (8B) erstellt wurde. Das Distill erreicht eine ähnliche Leistung wie Qwen3 (235B). Sie können auch Qwen3 Distill feinabstimmen mit Unsloth. Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-shot MMLU- und KL-Divergenz-Leistung, was bedeutet, dass Sie quantisierte DeepSeek-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen können.
Tutorial-Navigation:
In llama.cpp ausführenAusführen in Ollama/Open WebUIFeinabstimmung von R1-0528
NEU: Enorme Verbesserungen beim Tool-Calling und Korrekturen bei Chat-Vorlagen.
Neu TQ1_0 dynamische 1,66-Bit-Quantisierung - 162 GB groß. Ideal für 192 GB RAM (einschließlich Mac) und Ollama-Nutzer. Probieren Sie: ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
⚙️ Empfohlene Einstellungen
Für DeepSeek-R1-0528-Qwen3-8B passt das Modell in praktisch jede Konfiguration, sogar in solche mit nur 20 GB RAM. Es ist keine Vorbereitung im Voraus erforderlich. Für das vollständige R1-0528-Modell mit 715 GB Größe benötigen Sie jedoch zusätzliche Vorbereitung. Die 1,78-Bit-(IQ1_S)-Quantisierung passt in eine einzelne 24-GB-GPU (mit Auslagerung aller Schichten). Erwarte etwa 5 Tokens/s mit dieser Konfiguration, wenn du zusätzlich 128 GB RAM hast.
Es wird empfohlen, mindestens 64 GB RAM zu haben, um diese Quantisierung auszuführen (ohne GPU erhältst du etwa 1 Token/s). Für optimale Leistung benötigst du mindestens 180 GB Unified Memory oder 180 GB kombinierter RAM+VRAM für 5+ Tokens/s.
Wir empfehlen die Verwendung unserer 2,7-Bit-(Q2_K_XL)- oder 2,4-Bit-(IQ2_XXS)-Quantisierung, um Größe und Genauigkeit auszubalancieren! Die 2,4-Bit-Variante funktioniert ebenfalls gut.
Obwohl nicht erforderlich, gilt: Für beste Leistung sollten VRAM + RAM zusammen der Größe der heruntergeladenen Quantisierung entsprechen.
🐳 Offizielle empfohlene Einstellungen:
Laut DeepSeek, dies sind die empfohlenen Einstellungen für die R1-Inferenz (R1-0528 und Qwen3-Distill sollten dieselben Einstellungen verwenden):
Setzen Sie die Temperatur 0,6 um Wiederholungen und Inkohärenz zu reduzieren.
Setzen Sie top_p auf 0,95 (empfohlen)
Führen Sie mehrere Tests durch und mitteln Sie die Ergebnisse für eine zuverlässige Bewertung.
🔢 Chat-Template/Prompt-Format
R1-0528 verwendet dieselbe Chat-Vorlage wie das ursprüngliche R1-Modell. Sie müssen nicht zwingend <think>\n , aber Sie können es dennoch hinzufügen!
Ein BOS wird zwangsweise hinzugefügt, und ein EOS trennt jede Interaktion. Um doppelte BOS-Token während der Inferenz zu vermeiden, solltest du nur tokenizer.encode(..., add_special_tokens = False) da die Chat-Vorlage auch automatisch ein BOS-Token hinzufügt.
Für llama.cpp / GGUF-Inferenz sollten Sie das BOS überspringen, da es automatisch hinzugefügt wird:
Der <think> und </think> Tokens erhalten ihre eigenen zugewiesenen Tokens.
Model-Uploads
ALLE unsere Uploads - einschließlich jener, die nicht imatrix-basiert oder dynamisch sind, nutzen unseren Kalibrierungs-Datensatz, der speziell für Konversation, Programmierung und Sprachaufgaben optimiert ist.
Qwen3 (8B) Distill: DeepSeek-R1-0528-Qwen3-8B-GGUF
Vollständige DeepSeek-R1-0528 Modell-Uploads unten:
Wir haben außerdem hochgeladen IQ4_NL und Q4_1 Quants, die speziell für ARM- bzw. Apple-Geräte jeweils schneller laufen.
Wir haben auch Versionen in BF16-Formathochgeladen, und das ursprüngliche FP8 (float8)-Format.
Führen Sie DeepSeek-R1-0528 Tutorials aus:
🦙 Ausführen in Ollama/Open WebUI
Installieren Sie
ollamafalls Sie es noch nicht getan haben! Sie können nur Modelle bis zu 32B Größe ausführen. Um das vollständige 720GB R1-0528-Modell auszuführen, siehe hier.
Führen Sie das Modell aus! Beachten Sie, dass Sie aufrufen können
ollama servein einem anderen Terminal, falls es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) inparamsin unserem Hugging Face-Upload hinzu!
(NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, können Sie unsere TQ1_0 (162GB-Quant) verwenden:
🦙 Vollständiges R1-0528 auf Ollama/Open WebUI ausführen
Open WebUI hat ein Schritt-für-Schritt-Tutorial erstellt, wie man R1 ausführt, und für R1-0528 müssen Sie nur R1 durch die neue 0528-Quantisierung ersetzen: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/
(NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, können Sie unsere TQ1_0 (162GB-Quant) verwenden:
Wenn Sie eine der Quantisierungen verwenden möchten, die größer als TQ1_0 (162GB) sind, müssen Sie zuerst die 3 GGUF-Teildateien zu einer Datei zusammenführen wie im folgenden Code. Danach müssen Sie das Modell lokal ausführen.
✨ Qwen3-distilliertes R1 in llama.cpp ausführen
Um das vollständige 720GB R1-0528-Modell auszuführen, siehe hier. Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Verwenden Sie dann llama.cpp direkt, um das Modell herunterzuladen:
✨ Vollständiges R1-0528 auf llama.cpp ausführen
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Wenn Sie
llama.cppum Modelle direkt zu laden, können Sie das Folgende tun: (:IQ1_S) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ist ähnlich wieollama run. Verwenden Sieexport LLAMA_CACHE="folder"um zu erzwingen, dassllama.cppan einem bestimmten Ort zu speichern.
Bitte probieren Sie aus -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dies ermöglicht es effektiv, alle Nicht-MoE-Schichten auf einer GPU unterzubringen und die Generationsgeschwindigkeit zu verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert up- und down-Projektions-MoE-Schichten aus.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur up-Projektions-MoE-Schichten aus.
Und schließlich alle Schichten auslagern über -ot ".ffn_.*_exps.=CPU" Dies verwendet am wenigsten VRAM.
Sie können den Regex auch anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, jedoch nur ab der 6. Schicht.
Laden Sie das Modell herunter über (nach Installation von
pip install huggingface_hub hf_transfer). Sie können wählenUD-IQ1_S(dynamisches 1,78-Bit-Quant) oder andere quantisierte Versionen wieQ4_K_M. Wir empfehlen die Verwendung unserer 2,7-Bit-dynamischen QuantisierungUD-Q2_K_XLum Größe und Genauigkeit auszugleichen. Weitere Versionen unter: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF
Führe Unsloths Flappy-Bird-Test wie in unserem 1,58-Bit-Dynamik-Quant für DeepSeek R1 beschrieben aus.
Bearbeiten
--threads 32für die Anzahl der CPU-Threads bearbeiten,--ctx-size 16384für die Kontextlänge,--n-gpu-layers 2für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
🎱 Heptagon-Test
Sie können unsere dynamischen Quants auch über testen r/Localllama der das Modell darin testet, eine grundlegende Physik-Engine zu erstellen, um Kugeln in einer rotierenden, geschlossenen Heptagon-Form zu simulieren.

🦥 Feinabstimmung von DeepSeek-R1-0528 mit Unsloth
Um feinabzustimmen DeepSeek-R1-0528-Qwen3-8B mit Unsloth haben wir ein neues GRPO-Notebook erstellt, das eine benutzerdefinierte Belohnungsfunktion enthält, die darauf ausgelegt ist, die mehrsprachige Ausgabe deutlich zu verbessern - insbesondere die Rate der gewünschten Sprachantworten zu erhöhen (in unserem Beispiel verwenden wir Indonesisch, aber Sie können jede Sprache verwenden) um mehr als 40%.
Während viele Reasoning-LLMs mehrsprachige Fähigkeiten haben, erzeugen sie oft gemischte Sprachausgaben in ihren Reasoning-Spuren, indem sie Englisch mit der Zielsprache kombinieren. Unsere Belohnungsfunktion mindert dieses Problem effektiv, indem sie stark Ausgaben in der gewünschten Sprache fördert, was zu einer erheblichen Verbesserung der Sprachkonsistenz führt.
Diese Belohnungsfunktion ist ebenfalls vollständig anpassbar, sodass Sie sie für andere Sprachen anpassen oder für bestimmte Domänen bzw. Anwendungsfälle feinabstimmen können.
Das Beste an dieser ganzen Belohnungsfunktion und dem Notebook ist, dass Sie KEIN Sprachdatensatz benötigen, um Ihr Modell dazu zu bringen, eine bestimmte Sprache zu lernen. Das Notebook enthält keinen indonesischen Datensatz.
Unsloth macht die R1-Qwen3-Distill-Feinabstimmung 2× schneller, verwendet 70% weniger VRAM und unterstützt 8× längere Kontextlängen.
Zuletzt aktualisiert
War das hilfreich?

