🐋DeepSeek-R1-0528: Anleitung zum lokalen Betrieb

Eine Anleitung, wie man DeepSeek-R1-0528 einschließlich Qwen3 auf dem eigenen lokalen Gerät ausführt!

DeepSeek-R1-0528 ist DeepSeeks neues Update ihres R1-Reasoning-Modells. Das vollständige 671B-Parameter-Modell benötigt 715 GB Festplattenspeicher. Die quantisierte dynamische 1,66-Bit Version verwendet 162 GB (−80% Größenreduktion). GGUF: DeepSeek-R1-0528-GGUFarrow-up-right

DeepSeek hat außerdem eine R1-0528-distillierte Version veröffentlicht, die durch Feinabstimmung von Qwen3 (8B) erstellt wurde. Das Distill erreicht eine ähnliche Leistung wie Qwen3 (235B). Sie können auch Qwen3 Distill feinabstimmen mit Unsloth. Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUFarrow-up-right

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-shot MMLU- und KL-Divergenz-Leistung, was bedeutet, dass Sie quantisierte DeepSeek-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen können.

Tutorial-Navigation:

In llama.cpp ausführenAusführen in Ollama/Open WebUIFeinabstimmung von R1-0528

circle-check

⚙️ Empfohlene Einstellungen

Für DeepSeek-R1-0528-Qwen3-8B passt das Modell in praktisch jede Konfiguration, sogar in solche mit nur 20 GB RAM. Es ist keine Vorbereitung im Voraus erforderlich. Für das vollständige R1-0528-Modell mit 715 GB Größe benötigen Sie jedoch zusätzliche Vorbereitung. Die 1,78-Bit-(IQ1_S)-Quantisierung passt in eine einzelne 24-GB-GPU (mit Auslagerung aller Schichten). Erwarte etwa 5 Tokens/s mit dieser Konfiguration, wenn du zusätzlich 128 GB RAM hast.

Es wird empfohlen, mindestens 64 GB RAM zu haben, um diese Quantisierung auszuführen (ohne GPU erhältst du etwa 1 Token/s). Für optimale Leistung benötigst du mindestens 180 GB Unified Memory oder 180 GB kombinierter RAM+VRAM für 5+ Tokens/s.

Wir empfehlen die Verwendung unserer 2,7-Bit-(Q2_K_XL)- oder 2,4-Bit-(IQ2_XXS)-Quantisierung, um Größe und Genauigkeit auszubalancieren! Die 2,4-Bit-Variante funktioniert ebenfalls gut.

circle-check

🐳 Offizielle empfohlene Einstellungen:

Laut DeepSeekarrow-up-right, dies sind die empfohlenen Einstellungen für die R1-Inferenz (R1-0528 und Qwen3-Distill sollten dieselben Einstellungen verwenden):

  • Setzen Sie die Temperatur 0,6 um Wiederholungen und Inkohärenz zu reduzieren.

  • Setzen Sie top_p auf 0,95 (empfohlen)

  • Führen Sie mehrere Tests durch und mitteln Sie die Ergebnisse für eine zuverlässige Bewertung.

🔢 Chat-Template/Prompt-Format

R1-0528 verwendet dieselbe Chat-Vorlage wie das ursprüngliche R1-Modell. Sie müssen nicht zwingend <think>\n , aber Sie können es dennoch hinzufügen!

Ein BOS wird zwangsweise hinzugefügt, und ein EOS trennt jede Interaktion. Um doppelte BOS-Token während der Inferenz zu vermeiden, solltest du nur tokenizer.encode(..., add_special_tokens = False) da die Chat-Vorlage auch automatisch ein BOS-Token hinzufügt. Für llama.cpp / GGUF-Inferenz sollten Sie das BOS überspringen, da es automatisch hinzugefügt wird:

Der <think> und </think> Tokens erhalten ihre eigenen zugewiesenen Tokens.

Model-Uploads

ALLE unsere Uploads - einschließlich jener, die nicht imatrix-basiert oder dynamisch sind, nutzen unseren Kalibrierungs-Datensatz, der speziell für Konversation, Programmierung und Sprachaufgaben optimiert ist.

Wir haben außerdem hochgeladen IQ4_NLarrow-up-right und Q4_1arrow-up-right Quants, die speziell für ARM- bzw. Apple-Geräte jeweils schneller laufen.

MoE-Bits
Typ + Link
Platten-/Festplattengröße
Details

1,66bit

162 GB

1,92/1,56bit

1,78bit

185GB

2,06/1,56bit

1,93bit

200GB

2.5/2.06/1.56

2,42bit

216GB

2,5/2,06bit

2,71bit

251GB

3,5/2,5bit

3,12bit

273GB

3,5/2,06bit

3,5bit

296GB

4,5/3,5bit

4,5bit

384GB

5,5/4,5bit

5,5bit

481GB

6,5/5,5bit

Wir haben auch Versionen in BF16-Formatarrow-up-righthochgeladen, und das ursprüngliche FP8 (float8)-Formatarrow-up-right.

Führen Sie DeepSeek-R1-0528 Tutorials aus:

🦙 Ausführen in Ollama/Open WebUI

  1. Installieren Sie ollama falls Sie es noch nicht getan haben! Sie können nur Modelle bis zu 32B Größe ausführen. Um das vollständige 720GB R1-0528-Modell auszuführen, siehe hier.

  1. Führen Sie das Modell aus! Beachten Sie, dass Sie aufrufen können ollama servein einem anderen Terminal, falls es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params in unserem Hugging Face-Upload hinzu!

  1. (NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, können Sie unsere TQ1_0 (162GB-Quant) verwenden:

🦙 Vollständiges R1-0528 auf Ollama/Open WebUI ausführen

Open WebUI hat ein Schritt-für-Schritt-Tutorial erstellt, wie man R1 ausführt, und für R1-0528 müssen Sie nur R1 durch die neue 0528-Quantisierung ersetzen: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/arrow-up-right

(NEU) Um das vollständige R1-0528-Modell in Ollama auszuführen, können Sie unsere TQ1_0 (162GB-Quant) verwenden:

Wenn Sie eine der Quantisierungen verwenden möchten, die größer als TQ1_0 (162GB) sind, müssen Sie zuerst die 3 GGUF-Teildateien zu einer Datei zusammenführen wie im folgenden Code. Danach müssen Sie das Modell lokal ausführen.

✨ Qwen3-distilliertes R1 in llama.cpp ausführen

  1. Um das vollständige 720GB R1-0528-Modell auszuführen, siehe hier. Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

  1. Verwenden Sie dann llama.cpp direkt, um das Modell herunterzuladen:

✨ Vollständiges R1-0528 auf llama.cpp ausführen

  1. Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

  1. Wenn Sie llama.cpp um Modelle direkt zu laden, können Sie das Folgende tun: (:IQ1_S) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, dass llama.cpp an einem bestimmten Ort zu speichern.

circle-check
  1. Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen UD-IQ1_S(dynamisches 1,78-Bit-Quant) oder andere quantisierte Versionen wie Q4_K_M . Wir empfehlen die Verwendung unserer 2,7-Bit-dynamischen Quantisierung UD-Q2_K_XL um Größe und Genauigkeit auszugleichen. Weitere Versionen unter: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUFarrow-up-right

  1. Führe Unsloths Flappy-Bird-Test wie in unserem 1,58-Bit-Dynamik-Quant für DeepSeek R1 beschrieben aus.

  2. Bearbeiten --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

🎱 Heptagon-Test

Sie können unsere dynamischen Quants auch über testen r/Localllamaarrow-up-right der das Modell darin testet, eine grundlegende Physik-Engine zu erstellen, um Kugeln in einer rotierenden, geschlossenen Heptagon-Form zu simulieren.

Das Ziel ist, das Heptagon zum Drehen zu bringen, und die Kugeln im Heptagon sollten sich bewegen.
chevron-rightVoller Prompt zum Ausführen des Modellshashtag

🦥 Feinabstimmung von DeepSeek-R1-0528 mit Unsloth

Um feinabzustimmen DeepSeek-R1-0528-Qwen3-8B mit Unsloth haben wir ein neues GRPO-Notebook erstellt, das eine benutzerdefinierte Belohnungsfunktion enthält, die darauf ausgelegt ist, die mehrsprachige Ausgabe deutlich zu verbessern - insbesondere die Rate der gewünschten Sprachantworten zu erhöhen (in unserem Beispiel verwenden wir Indonesisch, aber Sie können jede Sprache verwenden) um mehr als 40%.

Während viele Reasoning-LLMs mehrsprachige Fähigkeiten haben, erzeugen sie oft gemischte Sprachausgaben in ihren Reasoning-Spuren, indem sie Englisch mit der Zielsprache kombinieren. Unsere Belohnungsfunktion mindert dieses Problem effektiv, indem sie stark Ausgaben in der gewünschten Sprache fördert, was zu einer erheblichen Verbesserung der Sprachkonsistenz führt.

Diese Belohnungsfunktion ist ebenfalls vollständig anpassbar, sodass Sie sie für andere Sprachen anpassen oder für bestimmte Domänen bzw. Anwendungsfälle feinabstimmen können.

circle-check

Unsloth macht die R1-Qwen3-Distill-Feinabstimmung 2× schneller, verwendet 70% weniger VRAM und unterstützt 8× längere Kontextlängen.

Zuletzt aktualisiert

War das hilfreich?