🐋DeepSeek-R1-0528: Anleitung zum lokalen Betrieb

Eine Anleitung, wie man DeepSeek-R1-0528 inklusive Qwen3 auf dem eigenen lokalen Gerät ausführt!

DeepSeek-R1-0528 ist DeepSeeks neues Update für ihr R1-Reasoning-Modell. Das vollständige Modell mit 671 Milliarden Parametern benötigt 715 GB Speicherplatz. Die quantisierte dynamische 1,66-Bit Version verwendet 162 GB (-80% Größenreduzierung). GGUF: DeepSeek-R1-0528-GGUFarrow-up-right

DeepSeek hat außerdem eine R1-0528 distilled Version veröffentlicht, die durch Feintuning von Qwen3 (8B) erstellt wurde. Die Distillation erreicht eine ähnliche Leistung wie Qwen3 (235B). Sie können auch Qwen3 Distill feinabstimmen mit Unsloth. Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUFarrow-up-right

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Leistung, das heißt, Sie können quantisierte DeepSeek-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen.

Tutorial-Navigation:

In llama.cpp ausführenAusführung in Ollama/Open WebUIFeinabstimmung von R1-0528

circle-check

⚙️ Empfohlene Einstellungen

Für DeepSeek-R1-0528-Qwen3-8B passt das Modell praktisch in jede Umgebung, sogar in Systeme mit nur 20 GB RAM. Es ist kein Vorbereiten erforderlich. Für das vollständige R1-0528-Modell mit 715 GB benötigen Sie jedoch zusätzliche Vorbereitung. Die 1,78-Bit-(IQ1_S)-Quantisierung passt in eine einzelne 24-GB-GPU (mit Auslagerung aller Schichten). Erwartet werden bei dieser Konfiguration etwa 5 Token/s, wenn Sie zusätzlich 128 GB RAM haben.

Es wird empfohlen, mindestens 64 GB RAM zu haben, um diese Quantisierung auszuführen (ohne GPU erhalten Sie etwa 1 Token/s). Für optimale Leistung benötigen Sie mindestens 180 GB einheitlichen Speicher oder 180 GB kombinierter RAM+VRAM für 5+ Token/s.

Wir empfehlen die Verwendung unserer 2,7-Bit-(Q2_K_XL) oder 2,4-Bit-(IQ2_XXS) Quantisierung, um Größe und Genauigkeit auszugleichen! Die 2,4-Bit-Variante funktioniert ebenfalls gut.

circle-check

🐳 Offiziell empfohlene Einstellungen:

Laut DeepSeekarrow-up-right, dies sind die empfohlenen Einstellungen für die R1-Inferenz (R1-0528 und Qwen3-Distill sollten dieselben Einstellungen verwenden):

  • Stellen Sie die Temperatur 0,6 um Wiederholungen und Inkohärenz zu reduzieren.

  • Setzen Sie top_p auf 0.95 (empfohlen)

  • Führen Sie mehrere Tests durch und mitteln Sie die Ergebnisse für eine verlässliche Bewertung.

🔢 Chat-Template/Prompt-Format

R1-0528 verwendet dieselbe Chat-Vorlage wie das ursprüngliche R1-Modell. Sie müssen nicht erzwingen <think>\n , aber Sie können es trotzdem hinzufügen!

Ein BOS wird zwangsweise hinzugefügt, und ein EOS trennt jede Interaktion. Um doppelte BOS-Tokens während der Inferenz zu vermeiden, solltest du nur tokenizer.encode(..., add_special_tokens = False) da die Chat-Vorlage automatisch auch ein BOS-Token hinzufügt. Für llama.cpp / GGUF-Inferenz sollten Sie das BOS überspringen, da es automatisch hinzugefügt wird:

Die <think> und </think> Token erhalten ihre eigenen zugewiesenen Tokens.

Model-Uploads

ALLE unsere Uploads - einschließlich derjenigen, die nicht imatrix-basiert oder dynamisch sind, nutzen unseren Kalibrierungsdatensatz, der speziell für Konversations-, Coding- und Sprachaufgaben optimiert ist.

Wir haben außerdem hochgeladen IQ4_NLarrow-up-right und Q4_1arrow-up-right Quants, die speziell für ARM- bzw. Apple-Geräte jeweils schneller laufen.

MoE Bits
Typ + Link
Platzbedarf auf Datenträger
Details

1,66bit

162GB

1,92/1,56bit

1,78bit

185GB

2,06/1,56bit

1,93bit

200GB

2.5/2.06/1.56

2,42bit

216GB

2,5/2,06bit

2,71bit

251GB

3,5/2,5bit

3,12bit

273GB

3,5/2,06bit

3,5bit

296GB

4,5/3,5bit

4,5bit

384GB

5,5/4,5bit

5,5bit

481GB

6,5/5,5bit

Wir haben auch Versionen in BF16-Formatarrow-up-righthochgeladen, und originale FP8 (float8)-Formatarrow-up-right.

Führen Sie DeepSeek-R1-0528 Tutorials aus:

🦙 Ausführung in Ollama/Open WebUI

  1. In Ollama ausführen Installieren Sie falls Sie das noch nicht getan haben! Sie können nur Modelle bis zu 32B Größe ausführen. Um das vollständige 720GB R1-0528 Modell auszuführen, falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,.

  1. curl -fsSL https://ollama.com/install.sh | sh Führen Sie das Modell aus! Beachten Sie, dass Sieollama serve in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params

  1. (NEU) Um das vollständige R1-0528 Modell in Ollama auszuführen, können Sie unsere TQ1_0 (162GB Quant):

🦙 Vollständiges R1-0528 auf Ollama ausführen/Open WebUI

Open WebUI hat ein Schritt-für-Schritt-Tutorial erstellt, wie man R1 ausführt; für R1-0528 müssen Sie lediglich R1 durch die neue 0528-Quant ersetzen: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/arrow-up-right

(NEU) Um das vollständige R1-0528 Modell in Ollama auszuführen, können Sie unsere TQ1_0 (162GB Quant):

Wenn Sie eine der Quantisierungen verwenden möchten, die größer sind als TQ1_0 (162GB) auf Ollama, müssen Sie zuerst die 3 GGUF-Teildateien zu einer Datei zusammenführen wie im folgenden Code. Danach müssen Sie das Modell lokal ausführen.

✨ Qwen3-distilliertes R1 in llama.cpp ausführen

  1. Um das vollständige 720GB R1-0528 Modell auszuführen, falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,. Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Verwenden Sie dann llama.cpp direkt, um das Modell herunterzuladen:

✨ Vollständiges R1-0528 auf llama.cpp ausführen

  1. Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Wenn du llama.cpp um Modelle direkt zu laden, können Sie Folgendes tun: (:IQ1_S) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um llama.cpp um an einen bestimmten Ort zu speichern.

circle-check
  1. Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen UD-IQ1_S(dynamischer 1,78bit-Quant) oder andere quantisierte Versionen wie Q4_K_M Q4_K_XL . Wir empfehlen die Verwendung unseres 2,7-Bit Dynamic Quant UD-Q2_K_XL. Mehr Versionen unter: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUFarrow-up-right

  1. Führen Sie Unsloths Flappy-Bird-Test wie in unserer Anleitung zur dynamischen 1,58-Bit-Quantisierung für DeepSeek R1 beschrieben aus.

  2. Bearbeiten Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für Kontextlänge, --n-gpu-layers 2

🎱 Heptagon-Test

Sie können unsere dynamischen Quants auch über testen r/Localllamaarrow-up-right welches das Modell testet, indem es eine einfache Physik-Engine erstellt, um Kugeln in einem sich drehenden, eingeschlossenen Heptagon rotieren zu lassen.

Das Ziel ist, das Heptagon drehen zu lassen, und die Kugeln im Heptagon sollten sich bewegen.
chevron-rightVoller Prompt zum Ausführen des Modellshashtag

🦥 Feinabstimmung von DeepSeek-R1-0528 mit Unsloth

Um fein abzustimmen DeepSeek-R1-0528-Qwen3-8B mit Unsloth haben wir ein neues GRPO-Notebook erstellt, das eine benutzerdefinierte Belohnungsfunktion enthält, die die mehrsprachige Ausgabe deutlich verbessert - insbesondere erhöht sie die Rate gewünschter Sprachantworten (in unserem Beispiel verwenden wir Indonesisch, Sie können aber jede Sprache verwenden) um mehr als 40%.

Während viele Reasoning-LLMs mehrsprachige Fähigkeiten haben, erzeugen sie oft gemischte Sprachausgaben in ihren Reasoning-Traces, die Englisch mit der Zielsprache kombinieren. Unsere Belohnungsfunktion verringert dieses Problem effektiv, indem sie Ausgaben in der gewünschten Sprache stark fördert, was zu einer erheblichen Verbesserung der Sprachkonsistenz führt.

Diese Belohnungsfunktion ist auch vollständig anpassbar, sodass Sie sie für andere Sprachen oder zur Feinabstimmung für bestimmte Domänen oder Anwendungsfälle anpassen können.

circle-check

Unsloth macht die R1-Qwen3 Distill-Feinabstimmung 2× schneller, verwendet 70% weniger VRAM und unterstützt 8× längere Kontextlängen.

Zuletzt aktualisiert

War das hilfreich?