hexagonCogito v2.1 : comment l'exécuter localement

Les LLMs Cogito v2.1 sont parmi les modèles ouverts les plus puissants au monde, entraînés avec IDA. La version v1 existe aussi en 4 tailles : 70B, 109B, 405B et 671B, ce qui vous permet de choisir la taille la mieux adaptée à votre matériel.

circle-check

Cogito v2.1 est disponible en une taille MoE de 671B, tandis que Cogito v2 Preview est Deep Cogitoarrow-up-rightla publication de modèles s'étend sur 4 tailles de modèles allant de 70B à 671B. En utilisant IDA (Distillation itérée et Amplification), ces modèles sont entraînés avec le modèle internalisant le processus de raisonnement via une amélioration itérative de la politique, plutôt que de simplement chercher plus longtemps au moment de l'inférence (comme DeepSeek R1).

Deep Cogito est basé à San Francisco, États-Unisarrow-up-right (comme Unsloth 🇺🇸) et nous sommes ravis de fournir des modèles dynamiques quantifiés pour les 4 tailles de modèles ! Tous les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances SOTA en MMLU 5-shot et divergence KL, ce qui signifie que vous pouvez exécuter et affiner ces LLM quantifiés avec une perte d'exactitude minimale !

Navigation des tutoriels :

Exécuter MoE 671BExécuter MoE 109BExécuter Dense 405BExécuter Dense 70B

circle-check

💎 Tailles de modèles et téléchargements

Il y a 4 tailles de modèles :

  1. 2 modèles Dense basés sur Llama - 70B et 405B

  2. 2 modèles MoE basés sur Llama 4 Scout (109B) et DeepSeek R1 (671B)

Tailles de modèles
Quant recommandé & Lien
Taille sur disque
Architecture

70B Dense

44 Go

Llama 3 70B

109B MoE

50 Go

Llama 4 Scout

405B Dense

152 Go

Llama 3 405B

671B MoE

251 Go

DeepSeek R1

circle-check

🐳 Exécuter Cogito 671B MoE dans llama.cpp

  1. Obtenez le dernier llama.cpp sur GitHub iciarrow-up-right. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez normalement - le support Metal est activé par défaut.

  1. Si vous voulez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:IQ1_S) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Ceci est similaire à ollama run . Utilisez export LLAMA_CACHE="dossier" pour forcer llama.cpp pour enregistrer à un emplacement spécifique.

circle-check
  1. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-IQ1_S(quant dynamique 1,78 bit) ou d'autres versions quantifiées comme Q4_K_M . Nous recommandons d'utiliser notre quant dynamique 2,7 bits UD-Q2_K_XL pour équilibrer taille et précision. Plus de versions sur : https://huggingface.co/unsloth/cogito-671b-v2.1-GGUFarrow-up-right

  1. Modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement sur GPU du nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous avez uniquement une inférence CPU.

🖱️Exécuter Cogito 109B MoE dans llama.cpp

  1. Suivez les mêmes instructions que pour l'exécution du modèle 671B ci-dessus.

  2. Puis exécutez ce qui suit :

🌳Exécuter Cogito 405B Dense dans llama.cpp

  1. Suivez les mêmes instructions que pour l'exécution du modèle 671B ci-dessus.

  2. Puis exécutez ce qui suit :

😎 Exécuter Cogito 70B Dense dans llama.cpp

  1. Suivez les mêmes instructions que pour l'exécution du modèle 671B ci-dessus.

  2. Puis exécutez ce qui suit :

Voir https://www.deepcogito.com/research/cogito-v2-1arrow-up-right pour plus de détails

Mis à jour

Ce contenu vous a-t-il été utile ?