🐋DeepSeek-R1-0528: Wie man lokal ausführt
Ein Leitfaden, wie man DeepSeek-R1-0528 einschließlich Qwen3 auf deinem eigenen lokalen Gerät ausführt!
DeepSeek-R1-0528 ist DeepSeeks neues Update ihres R1-Reasoning-Modells. Das vollständige Modell mit 671B Parametern benötigt 715 GB Festplattenspeicher. Die quantisierte dynamische 1,66-Bit Version benötigt 162 GB (-80 % Größenreduktion). GGUF: DeepSeek-R1-0528-GGUF
DeepSeek hat außerdem eine destillierte R1-0528-Version veröffentlicht, indem Qwen3 (8B) feinabgestimmt wurde. Das Distillat erreicht eine ähnliche Leistung wie Qwen3 (235B). Du kannst auch Qwen3 Distill feinabstimmen mit Unsloth. Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Performance, was bedeutet, dass Sie quantisierte DeepSeek-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen können.
Tutorial-Navigation:
In llama.cpp ausführenIn Ollama/Open WebUI ausführenFeinabstimmung von R1-0528
NEU: Riesige Verbesserungen beim Tool-Calling und Korrekturen der Chat-Vorlage.
Neu TQ1_0 dynamische 1,66-Bit-Quantisierung - 162 GB groß. Ideal für 192 GB RAM (einschließlich Mac) und Ollama-Nutzer. Ausprobieren: ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
⚙️ Empfohlene Einstellungen
Für DeepSeek-R1-0528-Qwen3-8B passt das Modell praktisch in jedes Setup, sogar in solche mit nur 20 GB RAM. Es ist keine Vorbereitung im Voraus nötig. Für das vollständige R1-0528-Modell mit einer Größe von 715 GB ist jedoch zusätzliche Vorbereitung erforderlich. Die 1,78-Bit-(IQ1_S)-Quantisierung passt in eine 1x 24-GB-GPU (mit komplett ausgelagerten Schichten). Mit diesem Setup und zusätzlich 128 GB RAM kannst du etwa 5 Tokens/s erwarten.
Es wird empfohlen, mindestens 64 GB RAM zu haben, um diese Quantisierung auszuführen (du erhältst 1 Token/s ohne GPU). Für optimale Leistung benötigst du mindestens 180 GB Unified Memory oder 180 GB kombinierte RAM+VRAM für 5+ Tokens/s.
Wir empfehlen unsere 2,7-Bit-(Q2_K_XL)- oder 2,4-Bit-(IQ2_XXS)-Quantisierung, um Größe und Genauigkeit auszubalancieren! Die 2,4-Bit-Variante funktioniert ebenfalls gut.
Auch wenn es nicht notwendig ist: Für die beste Leistung sollte dein kombiniertes VRAM + RAM der Größe der heruntergeladenen Quantisierung entsprechen.
🐳 Offizielle empfohlene Einstellungen:
Laut DeepSeek, dies sind die empfohlenen Einstellungen für die Inferenz von R1 (R1-0528 und Qwen3 Distill sollten dieselben Einstellungen verwenden):
Setzen Sie die Temperatur 0,6 um Wiederholungen und Inkohärenz zu reduzieren.
Setzen Sie top_p auf 0,95 (empfohlen)
Führe mehrere Tests durch und bilde den Durchschnitt der Ergebnisse für eine zuverlässige Bewertung.
🔢 Chat-Template/Prompt-Format
R1-0528 verwendet dieselbe Chat-Vorlage wie das ursprüngliche R1-Modell. Du musst <think>\n nicht erzwingen, kannst es aber trotzdem hinzufügen!
Ein BOS wird erzwungen hinzugefügt, und ein EOS trennt jede Interaktion. Um doppelte BOS-Tokens während der Inferenz zu vermeiden, solltest du nur tokenizer.encode(..., add_special_tokens = False) da die Chat-Vorlage auch automatisch ein BOS-Token hinzufügt.
Für die llama.cpp-/GGUF-Inferenz solltest du das BOS überspringen, da es automatisch hinzugefügt wird:
Die <think> und </think> Tokens erhalten ihre eigenen zugewiesenen Tokens.
Modell-Uploads
ALLE unsere Uploads - einschließlich derjenigen, die nicht auf imatrix-basiert oder dynamisch sind, verwenden unseren Kalibrierungsdatensatz, der speziell für Konversations-, Coding- und Sprachaufgaben optimiert ist.
Qwen3 (8B) Distillat: DeepSeek-R1-0528-Qwen3-8B-GGUF
Vollständige DeepSeek-R1-0528-Modell-Uploads unten:
Wir haben auch IQ4_NL und Q4_1 Quants hochgeladen, die speziell auf ARM- bzw. Apple-Geräten schneller laufen.
Wir haben auch Versionen in BF16-Formatund originalem FP8-(Float8)-Format.
DeepSeek-R1-0528-Tutorials ausführen:
🦙 In Ollama/Open WebUI ausführen
Installieren Sie
ollamafalls du das nicht schon getan hast! Du kannst nur Modelle bis zu einer Größe von 32B ausführen. Um das vollständige 720-GB-R1-0528-Modell auszuführen, sehen Sie hier.
Führen Sie das Modell aus! Beachten Sie, dass Sie
ollama servein einem anderen Terminal aufrufen können, falls es fehlschlägt! Wir enthalten alle unsere Korrekturen und vorgeschlagenen Parameter (temperature usw.) inparamsin unserem Hugging-Face-Upload!
(NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, kannst du unsere TQ1_0-Quantisierung (162 GB) verwenden:
🦙 Vollständiges R1-0528 auf Ollama/Open WebUI ausführen
Open WebUI hat hier ein Schritt-für-Schritt-Tutorial dazu erstellt, wie man R1 ausführt, und für R1-0528 musst du nur R1 durch die neue 0528-Quantisierung ersetzen: https://docs.openwebui.com/tutorials/integrations/llm-providers/deepseekr1-dynamic
(NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, kannst du unsere TQ1_0-Quantisierung (162 GB) verwenden:
Wenn du in Ollama eine der Quantisierungen verwenden möchtest, die größer als TQ1_0 (162 GB) sind, musst du zuerst die 3 GGUF-Split-Dateien zu einer einzigen zusammenführen, wie im folgenden Code. Danach musst du das Modell lokal ausführen.
✨ Qwen3-destilliertes R1 in llama.cpp ausführen
Um das vollständige 720-GB-R1-0528-Modell auszuführen, sehen Sie hier. Hole dir die neueste
llama.cppauf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze-DGGML_CUDA=OFFund fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Verwende dann llama.cpp direkt, um das Modell herunterzuladen:
✨ Vollständiges R1-0528 in llama.cpp ausführen
Hole dir die neueste
llama.cppauf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze-DGGML_CUDA=OFFund fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Wenn du
llama.cppum Modelle direkt zu laden, kannst du Folgendes verwenden: (:IQ1_S) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wieollama run. Verwenden Sieexport LLAMA_CACHE="folder"um zu erzwingen, dassllama.cppum an einem bestimmten Speicherort zu speichern.
Bitte probieren Sie -ot ".ffn_.*_exps.=CPU" verwenden, um alle MoE-Layer auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Layer auf 1 GPU unterbringen, was die Generierungsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Layer unterzubringen, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert die MoE-Layer für Up- und Down-Projektionen aus.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur die MoE-Layer für Up-Projektionen aus.
Und schließlich lagern Sie alle Layer aus via -ot ".ffn_.*_exps.=CPU" Dies verwendet am wenigsten VRAM.
Sie können den Regex auch anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Layer auszulagern, aber nur ab der 6. Schicht.
Lade das Modell herunter über (nach der Installation von
pip install huggingface_hub hf_transfer). Du kannstUD-IQ1_S(dynamische 1,78-Bit-Quantisierung) oder andere quantisierte Versionen wieQ4_K_M. Wir empfehlen unser dynamisches 2,7-Bit-QuantUD-Q2_K_XLzu verwenden, um Größe und Genauigkeit auszubalancieren. Weitere Versionen unter: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF
Führe Unsloths Flappy-Bird-Test aus, wie in unserer 1,58-Bit-Dynamic-Quantisierung für DeepSeek R1 beschrieben.
Bearbeiten
--threads 32für die Anzahl der CPU-Threads bearbeiten,--ctx-size 16384für die Kontextlänge,--n-gpu-layers 2für GPU-Offloading, also für wie viele Layer. Versuchen Sie, dies anzupassen, wenn Ihrem GPU-Speicher der Platz ausgeht. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
🎱 Heptagon-Test
Du kannst unsere dynamischen Quantisierungen auch testen über r/Localllama der das Modell beim Erstellen einer einfachen Physik-Engine testet, um Bälle zu simulieren, die in einer sich bewegenden, geschlossenen Heptagon-Form rotieren.

🦥 DeepSeek-R1-0528 mit Unsloth feinabstimmen
Um DeepSeek-R1-0528-Qwen3-8B mit Unsloth feinabzustimmen, haben wir ein neues GRPO-Notebook mit einer benutzerdefinierten Belohnungsfunktion erstellt, die darauf ausgelegt ist, die mehrsprachige Ausgabe deutlich zu verbessern – insbesondere die Rate gewünschter Sprachantworten (in unserem Beispiel verwenden wir Indonesisch, aber du kannst jede andere Sprache verwenden) um mehr als 40 % zu erhöhen.
Während viele Reasoning-LLMs mehrsprachige Fähigkeiten haben, erzeugen sie in ihren Reasoning-Traces oft gemischtsprachige Ausgaben und kombinieren Englisch mit der Zielsprache. Unsere Belohnungsfunktion mindert dieses Problem wirksam, indem sie Ausgaben in der gewünschten Sprache stark fördert und so zu einer erheblichen Verbesserung der Sprachkonsistenz führt.
Diese Belohnungsfunktion ist außerdem vollständig anpassbar, sodass du sie an andere Sprachen anpassen oder für bestimmte Domänen bzw. Anwendungsfälle feinabstimmen kannst.
Das Beste an dieser gesamten Belohnungsfunktion und dem Notebook ist, dass du KEIN Sprachdatenset benötigst, um dein Modell zu zwingen, eine bestimmte Sprache zu lernen. Das Notebook enthält kein indonesisches Datenset.
Unsloth macht das R1-Qwen3-Distill-Fine-Tuning 2× schneller, verwendet 70 % weniger VRAM und unterstützt 8× längere Kontextlängen.
Zuletzt aktualisiert
War das hilfreich?

