🐋DeepSeek-R1-0528 : Comment exécuter localement
Un guide sur la façon d'exécuter DeepSeek-R1-0528 incluant Qwen3 sur votre propre appareil local !
DeepSeek-R1-0528 est la nouvelle mise à jour du modèle de raisonnement R1 de DeepSeek. Le modèle complet de 671 milliards de paramètres nécessite 715 Go d'espace disque. La version quantifiée dynamique 1,66 bits utilise 162 Go (-80 % de réduction de taille). GGUF : DeepSeek-R1-0528-GGUF
DeepSeek a également publié une version distillée R1-0528 en ajustant finement Qwen3 (8B). La distillation atteint des performances similaires à Qwen3 (235B). Vous pouvez aussi affiner Qwen3 Distill avec Unsloth. Qwen3 GGUF : DeepSeek-R1-0528-Qwen3-8B-GGUF
Tous les téléversements utilisent Unsloth Dynamic 2.0 pour des performances SOTA sur MMLU 5-shot et la divergence KL, ce qui signifie que vous pouvez exécuter et affiner des LLMs DeepSeek quantifiés avec une perte d'exactitude minimale.
Navigation des tutoriels :
Exécuter dans llama.cppExécuter dans Ollama/Open WebUIFine-tuning de R1-0528
NOUVEAU : Améliorations majeures de l'appel d'outils et corrections des modèles de chat.
Nouveau quant dynamique TQ1_0 1,66 bits - 162 Go de taille. Idéal pour 192 Go de RAM (y compris Mac) et les utilisateurs Ollama. Essayez : ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
⚙️ Paramètres recommandés
Pour DeepSeek-R1-0528-Qwen3-8B, le modèle peut quasiment tenir sur n'importe quelle configuration, même celles avec seulement 20 Go de RAM. Il n'y a pas besoin de préparation préalable. Cependant, pour le modèle R1-0528 complet qui fait 715 Go, vous aurez besoin d'une préparation supplémentaire. La quantification 1,78 bits (IQ1_S) tiendra sur un GPU 1x 24 Go (avec toutes les couches déchargées). Attendez-vous à environ 5 tokens/s avec cette configuration si vous disposez aussi de 128 Go de RAM supplémentaires.
Il est recommandé d'avoir au moins 64 Go de RAM pour exécuter cette quantification (vous obtiendrez 1 token/s sans GPU). Pour des performances optimales, vous aurez besoin d'au moins 180 Go de mémoire unifiée ou 180 Go de RAM+VRAM combinés pour 5+ tokens/s.
Nous suggérons d'utiliser notre quantification 2,7 bits (Q2_K_XL) ou 2,4 bits (IQ2_XXS) pour équilibrer taille et précision ! La version 2,4 bits fonctionne également bien.
Bien que non nécessaire, pour de meilleures performances, faites en sorte que votre VRAM + RAM combinées = taille de la quantification que vous téléchargez.
🐳 Paramètres officiels recommandés :
Selon DeepSeek, ce sont les paramètres recommandés pour l'inférence R1 (R1-0528 et la distillation Qwen3 doivent utiliser les mêmes paramètres) :
Réglez la température 0.6 pour réduire les répétitions et l'incohérence.
Réglez top_p à 0,95 (recommandé)
Effectuez plusieurs tests et faites la moyenne des résultats pour une évaluation fiable.
🔢 Format du template de chat / prompt
R1-0528 utilise le même modèle de chat que le modèle R1 original. Vous n'avez pas besoin de forcer <think>\n , mais vous pouvez toujours l'ajouter !
Un BOS est ajouté de force, et un EOS sépare chaque interaction. Pour éviter les doubles jetons BOS lors de l'inférence, vous ne devriez appeler que tokenizer.encode(..., add_special_tokens = False) puisque le modèle de chat ajoute automatiquement un token BOS également.
Pour l'inférence llama.cpp / GGUF, vous devez sauter le BOS car il l'ajoutera automatiquement :
Le <think> et </think> les tokens obtiennent leurs propres tokens désignés.
Téléversements de modèles
TOUS nos téléversements - y compris ceux qui ne sont pas basés sur imatrix ou dynamiques, utilisent notre jeu de données de calibration, qui est spécialement optimisé pour les tâches conversationnelles, de codage et de langage.
Distillation Qwen3 (8B) : DeepSeek-R1-0528-Qwen3-8B-GGUF
Téléversements du modèle DeepSeek-R1-0528 complet ci-dessous :
Nous avons également téléchargé IQ4_NL et Q4_1 des quants qui s'exécutent spécifiquement plus rapidement pour les appareils ARM et Apple respectivement.
Nous avons également téléversé des versions en format BF16, et l'original format FP8 (float8).
Exécuter les tutoriels DeepSeek-R1-0528 :
🦙 Exécuter dans Ollama/Open WebUI
Installez
ollamasi vous ne l'avez pas encore fait ! Vous ne pouvez exécuter que des modèles jusqu'à 32B. Pour exécuter le modèle R1-0528 complet de 720 Go, voir ici.
Exécutez le modèle ! Notez que vous pouvez appeler
ollama servedans un autre terminal s'il échoue ! Nous incluons toutes nos corrections et paramètres suggérés (température, etc.) dansparamsdans notre téléversement Hugging Face !
(NOUVEAU) Pour exécuter le R1-0528 complet sur Ollama, vous pouvez utiliser notre TQ1_0 (quant de 162 Go) :
🦙 Exécuter le R1-0528 complet sur Ollama/Open WebUI
Open WebUI a réalisé un tutoriel étape par étape sur la façon d'exécuter R1 ici et pour R1-0528, vous aurez juste besoin de remplacer R1 par la nouvelle quantification 0528 : docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/
(NOUVEAU) Pour exécuter le R1-0528 complet sur Ollama, vous pouvez utiliser notre TQ1_0 (quant de 162 Go) :
Si vous voulez utiliser des quantifications plus grandes que TQ1_0 (162 Go) sur Ollama, vous devez d'abord fusionner les 3 fichiers GGUF divisés en 1 comme le code ci-dessous. Ensuite, vous devrez exécuter le modèle localement.
✨ Exécuter R1 distillé Qwen3 dans llama.cpp
Pour exécuter le modèle R1-0528 complet de 720 Go, voir ici. Obtenez le dernier
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Puis utilisez directement llama.cpp pour télécharger le modèle :
✨ Exécuter le R1-0528 complet sur llama.cpp
Obtenez le dernier
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Si vous voulez utiliser
llama.cppdirectement pour charger des modèles, vous pouvez faire ce qui suit : (:IQ1_S) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire àollama run. Utilisezexport LLAMA_CACHE="folder"pour forcerllama.cpppour enregistrer à un emplacement spécifique.
Veuillez essayer -ot ".ffn_.*_exps.=CPU" pour décharger toutes les couches MoE vers le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous disposez de plus de capacité GPU.
Si vous avez un peu plus de mémoire GPU, essayez -ot ".ffn_(up|down)_exps.=CPU" Cela décharge les couches MoE de projection up et down.
Essayez -ot ".ffn_(up)_exps.=CPU" si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection up.
Et enfin déchargez toutes les couches via -ot ".ffn_.*_exps.=CPU" Ceci utilise le moins de VRAM.
Vous pouvez aussi personnaliser le regex, par exemple -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" signifie décharger les couches MoE gate, up et down mais seulement à partir de la 6e couche.
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisirUD-IQ1_S(quant dynamique 1,78bit) ou d'autres versions quantifiées commeQ4_K_M. Nous recommandons d'utiliser notre quant dynamique 2,7 bitsUD-Q2_K_XLpour équilibrer taille et précision. Plus de versions sur : https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF
Exécutez le test Flappy Bird d'Unsloth comme décrit dans notre quantification dynamique 1,58 bit pour DeepSeek R1.
éditer
--threads 32pour le nombre de threads CPU,--ctx-size 16384pour la longueur de contexte,--n-gpu-layers 2pour le déchargement GPU sur le nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n'avez qu'une inférence CPU.
🎱 Test Heptagone
Vous pouvez également tester nos quantifications dynamiques via r/Localllama qui teste le modèle sur la création d'un moteur physique de base pour simuler des balles tournant dans une forme heptagonale fermée en rotation.

🦥 Fine-tuning de DeepSeek-R1-0528 avec Unsloth
Pour affiner DeepSeek-R1-0528-Qwen3-8B en utilisant Unsloth, nous avons créé un nouveau notebook GRPO comportant une fonction de récompense personnalisée conçue pour améliorer significativement la production multilingue - augmentant spécifiquement le taux de réponses dans la langue souhaitée (dans notre exemple nous utilisons l'indonésien mais vous pouvez utiliser n'importe quelle langue) de plus de 40 %.
notebook DeepSeek-R1-0528-Qwen3-8B - nouveau
Alors que de nombreux LLM de raisonnement ont des capacités multilingues, ils produisent souvent des sorties mixtes dans leurs traces de raisonnement, combinant l'anglais avec la langue cible. Notre fonction de récompense atténue efficacement ce problème en encourageant fortement les sorties dans la langue désirée, ce qui conduit à une amélioration substantielle de la cohérence linguistique.
Cette fonction de récompense est également entièrement personnalisable, vous permettant de l'adapter à d'autres langues ou d'affiner pour des domaines ou cas d'utilisation spécifiques.
Le meilleur dans tout ça est que vous N'AVEZ PAS besoin d'un jeu de données linguistique pour forcer votre modèle à apprendre une langue spécifique. Le notebook n'a aucun jeu de données indonésien.
Unsloth rend l'affinage distillé R1-Qwen3 2× plus rapide, utilise 70 % de VRAM en moins et prend en charge des longueurs de contexte 8× plus longues.
Mis à jour
Ce contenu vous a-t-il été utile ?

