Cogito v2.1 : Comment exécuter localement
Les LLM Cogito v2.1 sont parmi les meilleurs modèles ouverts au monde entraînés avec IDA. La v1 existe aussi en 4 tailles : 70B, 109B, 405B et 671B, vous permettant de choisir la taille qui correspond le mieux à votre matériel.
Deep Cogito v2.1 est un MoE mis à jour de 671 milliards de paramètres qui est le modèle à poids ouverts le plus puissant au 19 novembre 2025.
Cogito v2.1 est disponible en une seule taille MoE de 671 milliards, tandis que Cogito v2 Preview est Deep Cogitola publication de modèles s'étend sur 4 tailles de modèles allant de 70B à 671B. En utilisant IDA (Distillation & Amplification Itérée), ces modèles sont entraînés avec le modèle internalisant le processus de raisonnement via une amélioration itérative de la politique, plutôt que de simplement rechercher plus longtemps au moment de l'inférence (comme DeepSeek R1).
Deep Cogito est basé à San Francisco, États-Unis (comme Unsloth 🇺🇸) et nous sommes ravis de fournir des modèles dynamiques quantifiés pour les 4 tailles de modèles ! Tous les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances SOTA en MMLU 5-shot et divergence KL, ce qui signifie que vous pouvez exécuter et affiner ces LLMs quantifiés avec une perte d'exactitude minimale !
Navigation des tutoriels :
Exécuter MoE 671BExécuter MoE 109BExécuter Dense 405BExécuter Dense 70B
Choisissez la taille de modèle adaptée à votre matériel ! Nous téléversons des variantes de 1,58bit à 16bit pour les 4 tailles de modèles !
💎 Tailles de modèles et téléchargements
Il existe 4 tailles de modèles :
2 modèles Dense dérivés de Llama - 70B et 405B
2 modèles MoE basés sur Llama 4 Scout (109B) et DeepSeek R1 (671B)
Bien que non nécessaire, pour de meilleures performances, faites en sorte que votre VRAM + RAM combinées = la taille du quant que vous téléchargez. Si vous avez moins de VRAM + RAM, le quant fonctionnera toujours, mais sera beaucoup plus lent.
🐳 Exécuter Cogito 671B MoE dans llama.cpp
Obtenez le dernier
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Si vous voulez utiliser
llama.cppdirectement pour charger des modèles, vous pouvez faire ce qui suit : (:IQ1_S) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire àollama run. Utilisezexport LLAMA_CACHE="folder"pour forcerllama.cpppour enregistrer à un emplacement spécifique.
Veuillez essayer -ot ".ffn_.*_exps.=CPU" pour décharger toutes les couches MoE vers le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous disposez de plus de capacité GPU.
Si vous avez un peu plus de mémoire GPU, essayez -ot ".ffn_(up|down)_exps.=CPU" Cela décharge les couches MoE de projection up et down.
Essayez -ot ".ffn_(up)_exps.=CPU" si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection up.
Et enfin déchargez toutes les couches via -ot ".ffn_.*_exps.=CPU" Ceci utilise le moins de VRAM.
Vous pouvez aussi personnaliser le regex, par exemple -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" signifie décharger les couches MoE gate, up et down mais seulement à partir de la 6e couche.
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisirUD-IQ1_S(quant dynamique 1,78bit) ou d'autres versions quantifiées commeQ4_K_M. Nous recommandons d'utiliser notre quant dynamique 2,7 bitsUD-Q2_K_XLpour équilibrer taille et précision. Plus de versions sur : https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF
éditer
--threads 32pour le nombre de threads CPU,--ctx-size 16384pour la longueur de contexte,--n-gpu-layers 2pour le déchargement GPU sur le nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n'avez qu'une inférence CPU.
🖱️Exécuter Cogito 109B MoE dans llama.cpp
Suivez les mêmes instructions que pour l'exécution du modèle 671B ci-dessus.
Puis exécutez ce qui suit :
🌳Exécuter Cogito 405B Dense dans llama.cpp
Suivez les mêmes instructions que pour l'exécution du modèle 671B ci-dessus.
Puis exécutez ce qui suit :
😎 Exécuter Cogito 70B Dense dans llama.cpp
Suivez les mêmes instructions que pour l'exécution du modèle 671B ci-dessus.
Puis exécutez ce qui suit :
Voir https://www.deepcogito.com/research/cogito-v2-1 pour plus de détails
Mis à jour
Ce contenu vous a-t-il été utile ?

