🐋DeepSeek-R1-0528 : comment l'exécuter localement

Un guide sur la façon d'exécuter DeepSeek-R1-0528, y compris Qwen3, sur votre propre appareil local !

DeepSeek-R1-0528 est la nouvelle mise à jour de DeepSeek pour leur modèle de raisonnement R1. Le modèle complet à 671B de paramètres nécessite 715 Go d’espace disque. Le dynamique quantifié 1,66 bits version utilise 162 Go (-80 % de réduction de taille). GGUF : DeepSeek-R1-0528-GGUF

DeepSeek a également publié une version distillée R1-0528 en affinant Qwen3 (8B). La distillation atteint des performances similaires à Qwen3 (235B). Vous pouvez aussi affiner Qwen3 Distill avec Unsloth. Qwen3 GGUF : DeepSeek-R1-0528-Qwen3-8B-GGUF

Tous les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances SOTA en MMLU 5-shot et en divergence KL, ce qui signifie que vous pouvez exécuter et affiner des LLM DeepSeek quantifiés avec une perte de précision minimale.

Navigation des tutoriels :

Exécuter dans llama.cppExécuter dans Ollama/Open WebUIAffinage de R1-0528

⚙️ Paramètres recommandés

Pour DeepSeek-R1-0528-Qwen3-8B, le modèle peut pratiquement s’adapter à n’importe quelle configuration, même à celles disposant d’aussi peu que 20 Go de RAM. Il n’y a pas besoin de préparation préalable. Cependant, pour le modèle complet R1-0528, qui a une taille de 715 Go, vous aurez besoin d’une préparation supplémentaire. La quantification à 1,78 bit (IQ1_S) tiendra sur un GPU 1x 24 Go (avec toutes les couches déchargées). Comptez environ 5 jetons/s avec cette configuration si vous disposez aussi de 128 Go de RAM supplémentaires.

Il est recommandé d’avoir au moins 64 Go de RAM pour exécuter cette quantification (vous obtiendrez 1 jeton/s sans GPU). Pour des performances optimales, vous aurez besoin d’au moins 180 Go de mémoire unifiée ou 180 Go de RAM+VRAM combinées pour 5+ jetons/s.

Nous suggérons d’utiliser notre quantification 2,7 bits (Q2_K_XL) ou 2,4 bits (IQ2_XXS) pour équilibrer taille et précision ! La version 2,4 bits fonctionne également bien.

🐳 Paramètres recommandés officiels :

Selon DeepSeek, voici les paramètres recommandés pour l’inférence de R1 (R1-0528 et le distill Qwen3 doivent utiliser les mêmes paramètres) :

  • Réglez la température sur 0,6 pour réduire les répétitions et les incohérences.

  • Réglez top_p sur 0,95 (recommandé)

  • Exécutez plusieurs tests et faites la moyenne des résultats pour une évaluation fiable.

🔢 Format du modèle de chat / de l’invite

R1-0528 utilise le même modèle de chat que le modèle R1 original. Vous n’avez pas besoin de forcer <think>\n , mais vous pouvez quand même l’ajouter !

Un BOS est ajouté de force, et un EOS sépare chaque interaction. Pour contrer les doubles tokens BOS lors de l'inférence, vous ne devez appeler que tokenizer.encode(..., add_special_tokens = False) car le modèle de chat ajoute automatiquement aussi un jeton BOS. Pour l’inférence llama.cpp / GGUF, vous devez omettre le BOS puisqu’il sera ajouté automatiquement :

Le <think> et </think> les jetons ont leurs propres jetons dédiés.

Téléversements du modèle

TOUS nos téléversements - y compris ceux qui ne sont pas basés sur imatrix ou dynamiques, utilisent notre jeu de données de calibration, spécialement optimisé pour les tâches conversationnelles, de codage et linguistiques.

Nous avons également téléversé IQ4_NL et Q4_1 des quantifications qui s’exécutent spécifiquement plus rapidement sur les appareils ARM et Apple respectivement.

Bits MoE
Type + Lien
Taille sur disque
Détails

1,66 bit

162 Go

1,92/1,56 bit

1,78 bit

185 Go

2,06/1,56 bit

1,93 bit

200 Go

2.5/2.06/1.56

2,42 bit

216 Go

2,5/2,06 bit

2,71 bit

251 Go

3,5/2,5 bit

3,12 bit

273 Go

3,5/2,06 bit

3,5 bit

296 Go

4,5/3,5 bit

4,5 bit

384 Go

5,5/4,5 bit

5,5 bit

481 Go

6,5/5,5 bit

Nous avons également téléversé des versions au format BF16, et au format original FP8 (float8).

Exécuter les tutoriels DeepSeek-R1-0528 :

🦙 Exécuter dans Ollama/Open WebUI

  1. Installez ollama si ce n’est pas déjà fait ! Vous ne pouvez exécuter que des modèles d’une taille maximale de 32B. Pour exécuter le modèle complet R1-0528 de 720 Go, voir ici.

  1. Exécutez le modèle ! Notez que vous pouvez appeler ollama servedans un autre terminal si cela échoue ! Nous incluons toutes nos corrections et les paramètres suggérés (température, etc.) dans params dans notre téléchargement Hugging Face !

  1. (NOUVEAU) Pour exécuter le modèle complet R1-0528 dans Ollama, vous pouvez utiliser notre TQ1_0 (quantification de 162 Go) :

🦙 Exécuter le R1-0528 complet sur Ollama/Open WebUI

Open WebUI a réalisé un tutoriel étape par étape sur la façon d’exécuter R1 ici, et pour R1-0528, il vous suffira de remplacer R1 par la nouvelle quantification 0528 : https://docs.openwebui.com/tutorials/integrations/llm-providers/deepseekr1-dynamic

(NOUVEAU) Pour exécuter le modèle complet R1-0528 dans Ollama, vous pouvez utiliser notre TQ1_0 (quantification de 162 Go) :

Si vous voulez utiliser l’une des quantifications plus grandes que TQ1_0 (162 Go) sur Ollama, vous devez d’abord fusionner les 3 fichiers GGUF divisés en 1, comme dans le code ci-dessous. Ensuite, vous devrez exécuter le modèle localement.

✨ Exécuter le R1 distillé Qwen3 dans llama.cpp

  1. Pour exécuter le modèle complet R1-0528 de 720 Go, voir ici. Obtenez la dernière version llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut.

  1. Utilisez ensuite llama.cpp directement pour télécharger le modèle :

✨ Exécuter le R1-0528 complet sur llama.cpp

  1. Obtenez la dernière version llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut.

  1. Si vous souhaitez utiliser llama.cpp pour charger directement les modèles, vous pouvez faire ce qui suit : (:IQ1_S) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique.

  1. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-IQ1_S(quantification dynamique 1,78 bit) ou d’autres versions quantifiées comme Q4_K_M . Nous recommandons d’utiliser notre quantification dynamique 2,7 bits UD-Q2_K_XL pour équilibrer taille et précision. Plus de versions sur : https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF

  1. Exécutez le test Flappy Bird d’Unsloth comme décrit dans notre quantification dynamique 1,58 bit pour DeepSeek R1.

  2. Modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur du contexte, --n-gpu-layers 2 pour le déchargement GPU, selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le aussi si vous n'avez qu'une inférence CPU.

🎱 Test de l’heptagone

Vous pouvez aussi tester nos quantifications dynamiques via r/Localllama qui teste le modèle sur la création d’un moteur physique de base pour simuler des balles tournant dans une forme d’heptagone fermée en mouvement.

Le but est de faire tourner l’heptagone, et les balles dans l’heptagone doivent bouger.
Prompt complet pour exécuter le modèle

🦥 Affinage de DeepSeek-R1-0528 avec Unsloth

Pour affiner DeepSeek-R1-0528-Qwen3-8B en utilisant Unsloth, nous avons créé un nouveau notebook GRPO avec une fonction de récompense personnalisée conçue pour améliorer considérablement la sortie multilingue - en augmentant spécifiquement de plus de 40 % le taux de réponses dans la langue souhaitée (dans notre exemple, nous utilisons l’indonésien, mais vous pouvez utiliser n’importe quelle langue).

Bien que de nombreux LLM de raisonnement aient des capacités multilingues, ils produisent souvent des sorties mêlant plusieurs langues dans leurs traces de raisonnement, combinant l’anglais avec la langue cible. Notre fonction de récompense atténue efficacement ce problème en encourageant fortement les sorties dans la langue souhaitée, ce qui entraîne une amélioration substantielle de la cohérence linguistique.

Cette fonction de récompense est également entièrement personnalisable, ce qui vous permet de l’adapter à d’autres langues ou de l’affiner pour des domaines ou des cas d’utilisation spécifiques.

Unsloth rend l’affinage de la distillation R1-Qwen3 2× plus rapide, utilise 70 % de VRAM en moins et prend en charge des longueurs de contexte 8× plus longues.

Mis à jour

Ce contenu vous a-t-il été utile ?