🐋DeepSeek-R1-0528: Wie man lokal ausführt

Ein Leitfaden, wie man DeepSeek-R1-0528 einschließlich Qwen3 auf deinem eigenen lokalen Gerät ausführt!

DeepSeek-R1-0528 ist DeepSeeks neues Update ihres R1-Reasoning-Modells. Das vollständige Modell mit 671B Parametern benötigt 715 GB Festplattenspeicher. Die quantisierte dynamische 1,66-Bit Version benötigt 162 GB (-80 % Größenreduktion). GGUF: DeepSeek-R1-0528-GGUF

DeepSeek hat außerdem eine destillierte R1-0528-Version veröffentlicht, indem Qwen3 (8B) feinabgestimmt wurde. Das Distillat erreicht eine ähnliche Leistung wie Qwen3 (235B). Du kannst auch Qwen3 Distill feinabstimmen mit Unsloth. Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Performance, was bedeutet, dass Sie quantisierte DeepSeek-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen können.

Tutorial-Navigation:

In llama.cpp ausführenIn Ollama/Open WebUI ausführenFeinabstimmung von R1-0528

⚙️ Empfohlene Einstellungen

Für DeepSeek-R1-0528-Qwen3-8B passt das Modell praktisch in jedes Setup, sogar in solche mit nur 20 GB RAM. Es ist keine Vorbereitung im Voraus nötig. Für das vollständige R1-0528-Modell mit einer Größe von 715 GB ist jedoch zusätzliche Vorbereitung erforderlich. Die 1,78-Bit-(IQ1_S)-Quantisierung passt in eine 1x 24-GB-GPU (mit komplett ausgelagerten Schichten). Mit diesem Setup und zusätzlich 128 GB RAM kannst du etwa 5 Tokens/s erwarten.

Es wird empfohlen, mindestens 64 GB RAM zu haben, um diese Quantisierung auszuführen (du erhältst 1 Token/s ohne GPU). Für optimale Leistung benötigst du mindestens 180 GB Unified Memory oder 180 GB kombinierte RAM+VRAM für 5+ Tokens/s.

Wir empfehlen unsere 2,7-Bit-(Q2_K_XL)- oder 2,4-Bit-(IQ2_XXS)-Quantisierung, um Größe und Genauigkeit auszubalancieren! Die 2,4-Bit-Variante funktioniert ebenfalls gut.

🐳 Offizielle empfohlene Einstellungen:

Laut DeepSeek, dies sind die empfohlenen Einstellungen für die Inferenz von R1 (R1-0528 und Qwen3 Distill sollten dieselben Einstellungen verwenden):

  • Setzen Sie die Temperatur 0,6 um Wiederholungen und Inkohärenz zu reduzieren.

  • Setzen Sie top_p auf 0,95 (empfohlen)

  • Führe mehrere Tests durch und bilde den Durchschnitt der Ergebnisse für eine zuverlässige Bewertung.

🔢 Chat-Template/Prompt-Format

R1-0528 verwendet dieselbe Chat-Vorlage wie das ursprüngliche R1-Modell. Du musst <think>\n nicht erzwingen, kannst es aber trotzdem hinzufügen!

Ein BOS wird erzwungen hinzugefügt, und ein EOS trennt jede Interaktion. Um doppelte BOS-Tokens während der Inferenz zu vermeiden, solltest du nur tokenizer.encode(..., add_special_tokens = False) da die Chat-Vorlage auch automatisch ein BOS-Token hinzufügt. Für die llama.cpp-/GGUF-Inferenz solltest du das BOS überspringen, da es automatisch hinzugefügt wird:

Die <think> und </think> Tokens erhalten ihre eigenen zugewiesenen Tokens.

Modell-Uploads

ALLE unsere Uploads - einschließlich derjenigen, die nicht auf imatrix-basiert oder dynamisch sind, verwenden unseren Kalibrierungsdatensatz, der speziell für Konversations-, Coding- und Sprachaufgaben optimiert ist.

Wir haben auch IQ4_NL und Q4_1 Quants hochgeladen, die speziell auf ARM- bzw. Apple-Geräten schneller laufen.

MoE-Bits
Typ + Link
Festplattengröße
Details

1,66 Bit

162 GB

1,92/1,56 Bit

1,78 Bit

185 GB

2,06/1,56 Bit

1,93 Bit

200 GB

2.5/2.06/1.56

2,42 Bit

216 GB

2,5/2,06 Bit

2,71 Bit

251GB

3,5/2,5 Bit

3,12 Bit

273 GB

3,5/2,06 Bit

3,5 Bit

296 GB

4,5/3,5 Bit

4,5 Bit

384 GB

5,5/4,5 Bit

5,5 Bit

481 GB

6,5/5,5 Bit

Wir haben auch Versionen in BF16-Formatund originalem FP8-(Float8)-Format.

DeepSeek-R1-0528-Tutorials ausführen:

🦙 In Ollama/Open WebUI ausführen

  1. Installieren Sie ollama falls du das nicht schon getan hast! Du kannst nur Modelle bis zu einer Größe von 32B ausführen. Um das vollständige 720-GB-R1-0528-Modell auszuführen, sehen Sie hier.

  1. Führen Sie das Modell aus! Beachten Sie, dass Sie ollama servein einem anderen Terminal aufrufen können, falls es fehlschlägt! Wir enthalten alle unsere Korrekturen und vorgeschlagenen Parameter (temperature usw.) in params in unserem Hugging-Face-Upload!

  1. (NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, kannst du unsere TQ1_0-Quantisierung (162 GB) verwenden:

🦙 Vollständiges R1-0528 auf Ollama/Open WebUI ausführen

Open WebUI hat hier ein Schritt-für-Schritt-Tutorial dazu erstellt, wie man R1 ausführt, und für R1-0528 musst du nur R1 durch die neue 0528-Quantisierung ersetzen: https://docs.openwebui.com/tutorials/integrations/llm-providers/deepseekr1-dynamic

(NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, kannst du unsere TQ1_0-Quantisierung (162 GB) verwenden:

Wenn du in Ollama eine der Quantisierungen verwenden möchtest, die größer als TQ1_0 (162 GB) sind, musst du zuerst die 3 GGUF-Split-Dateien zu einer einzigen zusammenführen, wie im folgenden Code. Danach musst du das Modell lokal ausführen.

✨ Qwen3-destilliertes R1 in llama.cpp ausführen

  1. Um das vollständige 720-GB-R1-0528-Modell auszuführen, sehen Sie hier. Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Verwende dann llama.cpp direkt, um das Modell herunterzuladen:

✨ Vollständiges R1-0528 in llama.cpp ausführen

  1. Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Wenn du llama.cpp um Modelle direkt zu laden, kannst du Folgendes verwenden: (:IQ1_S) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, dass llama.cpp um an einem bestimmten Speicherort zu speichern.

  1. Lade das Modell herunter über (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-IQ1_S(dynamische 1,78-Bit-Quantisierung) oder andere quantisierte Versionen wie Q4_K_M . Wir empfehlen unser dynamisches 2,7-Bit-Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Weitere Versionen unter: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF

  1. Führe Unsloths Flappy-Bird-Test aus, wie in unserer 1,58-Bit-Dynamic-Quantisierung für DeepSeek R1 beschrieben.

  2. Bearbeiten --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, also für wie viele Layer. Versuchen Sie, dies anzupassen, wenn Ihrem GPU-Speicher der Platz ausgeht. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

🎱 Heptagon-Test

Du kannst unsere dynamischen Quantisierungen auch testen über r/Localllama der das Modell beim Erstellen einer einfachen Physik-Engine testet, um Bälle zu simulieren, die in einer sich bewegenden, geschlossenen Heptagon-Form rotieren.

Das Ziel ist, das Heptagon zum Rotieren zu bringen, und die Bälle im Heptagon sollten sich bewegen.
Vollständiger Prompt zum Ausführen des Modells

🦥 DeepSeek-R1-0528 mit Unsloth feinabstimmen

Um DeepSeek-R1-0528-Qwen3-8B mit Unsloth feinabzustimmen, haben wir ein neues GRPO-Notebook mit einer benutzerdefinierten Belohnungsfunktion erstellt, die darauf ausgelegt ist, die mehrsprachige Ausgabe deutlich zu verbessern – insbesondere die Rate gewünschter Sprachantworten (in unserem Beispiel verwenden wir Indonesisch, aber du kannst jede andere Sprache verwenden) um mehr als 40 % zu erhöhen.

Während viele Reasoning-LLMs mehrsprachige Fähigkeiten haben, erzeugen sie in ihren Reasoning-Traces oft gemischtsprachige Ausgaben und kombinieren Englisch mit der Zielsprache. Unsere Belohnungsfunktion mindert dieses Problem wirksam, indem sie Ausgaben in der gewünschten Sprache stark fördert und so zu einer erheblichen Verbesserung der Sprachkonsistenz führt.

Diese Belohnungsfunktion ist außerdem vollständig anpassbar, sodass du sie an andere Sprachen anpassen oder für bestimmte Domänen bzw. Anwendungsfälle feinabstimmen kannst.

Unsloth macht das R1-Qwen3-Distill-Fine-Tuning 2× schneller, verwendet 70 % weniger VRAM und unterstützt 8× längere Kontextlängen.

Zuletzt aktualisiert

War das hilfreich?