Cogito v2.1 : comment l'exécuter localement

Les LLMs Cogito v2.1 font partie des modèles ouverts les plus puissants au monde, entraînés avec l'IDA. La version v1 existe aussi en 4 tailles : 70B, 109B, 405B et 671B, ce qui vous permet de choisir la taille la mieux adaptée à votre matériel.

Cogito v2.1 existe en une taille MoE de 1 671B, tandis que Cogito v2 Preview est Deep Cogitoa lancé des modèles couvrant 4 tailles de modèles allant de 70B à 671B. En utilisant IDA (Distillation itérative & Amplification) , ces modèles sont entraînés de sorte que le modèle internalise le processus de raisonnement à l’aide d’une amélioration itérative de la politique, plutôt que de simplement chercher plus longtemps au moment de l’inférence (comme DeepSeek R1).

Deep Cogito est basé à San Fransisco, États-Unis (comme Unsloth 🇺🇸) et nous sommes ravis de fournir des modèles dynamiques quantifiés pour les 4 tailles de modèles ! Tous les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances SOTA en MMLU à 5 exemples et en divergence KL, ce qui signifie que vous pouvez exécuter et affiner ces LLM quantifiés avec une perte de précision minimale !

Navigation des tutoriels :

Exécuter le MoE 671BExécuter le MoE 109BExécuter le Dense 405BExécuter le Dense 70B

💎 Tailles de modèles et téléchargements

Il existe 4 tailles de modèles :

  1. 2 modèles Dense basés sur Llama - 70B et 405B

  2. 2 modèles MoE basés sur Llama 4 Scout (109B) et DeepSeek R1 (671B)

Tailles de modèles
Quantification recommandée et lien
Taille sur disque
Architecture

Dense 70B

44 Go

Llama 3 70B

MoE 109B

50 Go

Llama 4 Scout

Dense 405B

152 Go

Llama 3 405B

MoE 671B

251 Go

DeepSeek R1

🐳 Exécuter Cogito 671B MoE dans llama.cpp

  1. Obtenez la dernière version llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut.

  1. Si vous souhaitez utiliser llama.cpp pour charger directement les modèles, vous pouvez faire ce qui suit : (:IQ1_S) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique.

  1. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-IQ1_S(quantification dynamique 1,78 bit) ou d’autres versions quantifiées comme Q4_K_M . Nous recommandons d’utiliser notre quantification dynamique 2,7 bits UD-Q2_K_XL pour équilibrer taille et précision. Plus de versions sur : https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF

  1. Modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur du contexte, --n-gpu-layers 2 pour le déchargement GPU, selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le aussi si vous n'avez qu'une inférence CPU.

🖱️Exécuter Cogito 109B MoE dans llama.cpp

  1. Suivez les mêmes instructions que pour l’exécution du modèle 671B ci-dessus.

  2. Ensuite, exécutez ce qui suit :

🌳Exécuter Cogito 405B Dense dans llama.cpp

  1. Suivez les mêmes instructions que pour l’exécution du modèle 671B ci-dessus.

  2. Ensuite, exécutez ce qui suit :

😎 Exécuter Cogito 70B Dense dans llama.cpp

  1. Suivez les mêmes instructions que pour l’exécution du modèle 671B ci-dessus.

  2. Ensuite, exécutez ce qui suit :

Voir https://www.deepcogito.com/research/cogito-v2-1 pour plus de détails

Mis à jour

Ce contenu vous a-t-il été utile ?