🐳DeepSeek-V3-0324 : Comment exécuter localement
Comment exécuter DeepSeek-V3-0324 localement en utilisant nos quantifications dynamiques qui récupèrent la précision
Veuillez consulter https://docs.unsloth.ai/basics/deepseek-r1-0528-how-to-run-locally (mise à jour du 28 mai 2025) pour apprendre comment exécuter DeepSeek plus rapidement et plus efficacement !
DeepSeek est de retour ! Après avoir publié V3, R1 Zero et R1 en décembre 2024 et janvier 2025, DeepSeek a mis à jour leurs points de contrôle / modèles pour V3, et a publié une mise à jour en mars !
Selon DeepSeek, MMLU-Pro a bondi de +5,3 % pour atteindre 81,2 %. GPQA +9,3 points %. AIME + 19,8 % et LiveCodeBench + 10,0 % ! Ils ont fourni un graphique montrant comment ils se comparaient au point de contrôle V3 précédent et à d'autres modèles comme GPT 4.5 et Claude Sonnet 3.7. Mais comment exécuter un modèle de 671 milliards de paramètres localement ?
L'upload original de DeepSeek V3 est en float8, ce qui prend 715 Go. L'utilisation de Q4_K_M réduit de moitié la taille du fichier à environ 404 Go, et notre quantification dynamique 1,78 bit tient autour de 151 Go. Nous suggérons d'utiliser notre quantification 2,7 bits pour équilibrer taille et précision ! La version 2,4 bits fonctionne également bien !
⚙️ Paramètres officiels recommandés
Selon DeepSeek, voici les paramètres recommandés pour l'inférence :
Température de 0,3 (Peut-être 0,0 pour le codage comme vu ici)
Min_P de 0,00 (optionnel, mais 0,01 fonctionne bien, la valeur par défaut de llama.cpp est 0,1)
Modèle de chat :
<|User|>Créez un jeu Flappy Bird jouable simple en Python. Placez le jeu final à l'intérieur d'une section markdown.<|Assistant|>Un jeton BOS de
<|begin▁of▁sentence|>est ajouté automatiquement lors de la tokenisation (ne l'ajoutez PAS manuellement !)DeepSeek a mentionné l'utilisation d'un prompt système également (optionnel) - il est en chinois :
该助手为DeepSeek Chat,由深度求索公司创造。\n今天是3月24日,星期一。ce qui se traduit par :L'assistant est DeepSeek Chat, créé par DeepSeek.\nAujourd'hui, nous sommes le lundi 24 mars.Pour la quantification du cache KV, utilisez 8 bits, PAS 4 bits - nous avons constaté que cela donnait des résultats nettement moins bons.
📖 Tutoriel : Comment exécuter DeepSeek-V3 dans llama.cpp
Obtenez la dernière
llama.cppsur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez-DGGML_CUDA=OFFpuis continuez comme d'habitude - le support Metal est activé par défaut.
REMARQUE l'utilisation de -DGGML_CUDA=ON pour les GPU peut prendre 5 minutes à compiler. Le CPU seul prend 1 minute pour compiler. Vous pourriez être intéressé par les binaires précompilés de llama.cpp.
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisirUD-IQ1_S(quant dynamique 1,78 bit) ou d'autres versions quantifiées commeQ4_K_M. Je recommande d'utiliser notre quantification dynamique 2,7 bitsUD-Q2_K_XLpour équilibrer taille et précision. Plus de versions sur : https://huggingface.co/unsloth/DeepSeek-V3-0324-GGUF
Exécutez le test Flappy Bird d'Unsloth comme décrit dans notre Quant dynamique 1,58 bit pour DeepSeek R1.
Modifier
--threads 32pour le nombre de threads CPU,--ctx-size 16384pour la longueur de contexte,--n-gpu-layers 2pour le déchargement sur GPU du nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous avez uniquement une inférence CPU.
Si nous exécutons ce qui précède, nous obtenons 2 résultats très différents. Version standard 2 bits : Cliquer pour voir le résultat (avertissement crises d'épilepsie !) Version dynamique 2 bits : Voir le résultat ci-dessous :

2 bits standard. Échoue avec l'arrière-plan, échoue avec la collision

Comme DeepSeek-R1, V3 a 61 couches. Par exemple, avec un GPU 24 Go ou 80 Go, vous pouvez vous attendre à décharger après arrondi vers le bas (réduire de 1 si cela dépasse la mémoire) :
1,73bit
173 Go
5
25
56
2,22bit
183 Go
4
22
49
2,51bit
212 Go
2
19
32
Exécution sur Mac / appareils Apple
Pour les appareils Apple Metal, faites attention à --n-gpu-layers. Si vous constatez que la machine manque de mémoire, réduisez-le. Pour une machine à mémoire unifiée de 128 Go, vous devriez pouvoir décharger environ 59 couches.
🎱 Test Heptagone
Nous testons également nos quants dynamiques via r/Localllama qui teste le modèle en créant un moteur physique basique pour simuler des balles tournant dans une forme heptagonale fermée en mouvement.


2 bits non dynamique. Échoue - AVERTISSEMENT CRISES D'ÉPILEPSIE encore !

2 bits dynamique. Résout en fait correctement le casse-tête de l'heptagone !!

Float8 original
Le quant dynamique 2,7 bits qui ne fait que 230 Go parvient en fait à résoudre le casse-tête de l'heptagone ! La sortie complète pour les 3 versions (y compris le fp8 complet) est ci-dessous :
🕵️ Constatations supplémentaires et conseils
Nous constatons que l'utilisation d'une quantification de cache KV plus basse (4 bits) semble dégrader la qualité de génération selon des tests empiriques - d'autres tests doivent être effectués, mais nous suggérons d'utiliser
q8_0la quantification du cache. L'objectif de la quantification est de prendre en charge des longueurs de contexte plus longues puisque le cache KV utilise pas mal de mémoire.Nous avons trouvé le
down_projdans ce modèle extrêmement sensible à la quantification. Nous avons dû refaire certaines de nos quantifications dynamiques qui utilisaient 2 bits pourdown_projet maintenant nous utilisons 3 bits comme minimum pour toutes ces matrices.L'utilisation de
llama.cpple backend Flash Attention de 's donne des vitesses de décodage quelque peu plus rapides. Utilisez-DGGML_CUDA_FA_ALL_QUANTS=ONlors de la compilation. Notez qu'il est également préférable de définir votre architecture CUDA comme indiqué dans https://developer.nvidia.com/cuda-gpus pour réduire les temps de compilation, puis de la définir via-DCMAKE_CUDA_ARCHITECTURES="80"L'utilisation d'un(e)
min_p=0.01est probablement suffisante.llama.cpppar défaut est 0.1, ce qui n'est probablement pas nécessaire. Puisqu'une température de 0.3 est utilisée de toute façon, il est très peu probable que nous échantillonnions des tokens de faible probabilité, donc supprimer les tokens très improbables est une bonne idée. DeepSeek recommande une température de 0.0 pour les tâches de codage.
Mis à jour
Ce contenu vous a-t-il été utile ?

