# Cogito v2.1 : Comment l'exécuter localement {% hint style="success" %} Deep Cogito v2.1 est un MoE 671B mis à jour, qui est le modèle à poids ouverts le plus puissant au 19 novembre 2025. {% endhint %} Cogito v2.1 existe en une taille MoE de 1 671B, tandis que Cogito v2 Preview est [Deep Cogito](https://www.deepcogito.com/)a lancé des modèles couvrant 4 tailles de modèles allant de 70B à 671B. En utilisant **IDA (Distillation itérative & Amplification)** , ces modèles sont entraînés de sorte que le modèle internalise le processus de raisonnement à l’aide d’une amélioration itérative de la politique, plutôt que de simplement chercher plus longtemps au moment de l’inférence (comme DeepSeek R1). Deep Cogito est basé à [San Fransisco, États-Unis](https://techcrunch.com/2025/04/08/deep-cogito-emerges-from-stealth-with-hybrid-ai-reasoning-models/) (comme Unsloth :flag\_us:) et nous sommes ravis de fournir des modèles dynamiques quantifiés pour les 4 tailles de modèles ! Tous les téléchargements utilisent Unsloth [Dynamic 2.0](/docs/fr/bases/unsloth-dynamic-2.0-ggufs.md) pour des performances SOTA en MMLU à 5 exemples et en divergence KL, ce qui signifie que vous pouvez exécuter et affiner ces LLM quantifiés avec une perte de précision minimale ! **Navigation des tutoriels :** Exécuter le MoE 671B Exécuter le MoE 109B Exécuter le Dense 405B Exécuter le Dense 70B {% hint style="success" %} Choisissez la taille de modèle qui convient à votre matériel ! Nous proposons des variantes de 1,58 bit à 16 bits pour les 4 tailles de modèles ! {% endhint %} ## :gem: Tailles de modèles et téléchargements Il existe 4 tailles de modèles : 1. 2 modèles Dense basés sur Llama - 70B et 405B 2. 2 modèles MoE basés sur Llama 4 Scout (109B) et DeepSeek R1 (671B)

Tailles de modèles	Quantification recommandée et lien	Taille sur disque	Architecture
Dense 70B	UD-Q4_K_XL	44 Go	Llama 3 70B
MoE 109B	UD-Q3_K_XL	50 Go	Llama 4 Scout
Dense 405B	UD-Q2_K_XL	152 Go	Llama 3 405B
MoE 671B	UD-Q2_K_XL	251 Go	DeepSeek R1

{% hint style="success" %} Bien que ce ne soit pas nécessaire, pour de meilleures performances, faites en sorte que votre VRAM + RAM combinées soient égales à la taille de la quantification que vous téléchargez. Si vous avez moins de VRAM + RAM, la quantification fonctionnera quand même, mais beaucoup plus lentement. {% endhint %} ## 🐳 Exécuter Cogito 671B MoE dans llama.cpp 1. Obtenez la dernière version `llama.cpp` sur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Changez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut. {% code overflow="wrap" %} ```shellscript apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endcode %} 2. Si vous souhaitez utiliser `llama.cpp` pour charger directement les modèles, vous pouvez faire ce qui suit : (:IQ1\_S) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à `ollama run` . Utilisez `export LLAMA_CACHE="folder"` pour forcer `llama.cpp` pour enregistrer à un emplacement spécifique. {% hint style="success" %} Veuillez essayer `-ot ".ffn_.*_exps.=CPU"` pour décharger toutes les couches MoE vers le CPU ! Cela permet effectivement de faire tenir toutes les couches non MoE sur 1 GPU, améliorant ainsi les vitesses de génération. Vous pouvez personnaliser l'expression regex pour faire tenir davantage de couches si vous disposez de plus de capacité GPU. Si vous avez un peu plus de mémoire GPU, essayez `-ot ".ffn_(up|down)_exps.=CPU"` Cela décharge les couches MoE de projection montante et descendante. Essayez `-ot ".ffn_(up)_exps.=CPU"` si vous avez encore plus de mémoire GPU. Cela décharge uniquement les couches MoE de projection montante. Et enfin, déchargez toutes les couches via `-ot ".ffn_.*_exps.=CPU"` Cela utilise le moins de VRAM. Vous pouvez aussi personnaliser la regex, par exemple `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` signifie décharger les couches MoE gate, up et down, mais uniquement à partir de la 6e couche. {% endhint %} ```shellscript export LLAMA_CACHE="unsloth/cogito-671b-v2.1-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/cogito-671b-v2.1-GGUF:UD-Q2_K_XL \ --n-gpu-layers 99 \ --temp 0.6 \ --top-p 0.95 \ --min-p 0.01 \ --ctx-size 16384 \ --seed 3407 \ --jinja \ -ot ".ffn_.*_exps.=CPU" ``` 3. Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir `UD-IQ1_S`(quantification dynamique 1,78 bit) ou d’autres versions quantifiées comme `Q4_K_M` . Nous **recommandons d’utiliser notre quantification dynamique 2,7 bits**** ****`UD-Q2_K_XL`**** ****pour équilibrer taille et précision**. Plus de versions sur : {% code overflow="wrap" %} ```python # !pip install huggingface_hub hf_transfer import os os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Peut parfois être soumis à une limitation de débit, donc mettez à 0 pour désactiver from huggingface_hub import snapshot_download snapshot_download( repo_id = "unsloth/cogito-671b-v2.1-GGUF", local_dir = "unsloth/cogito-671b-v2.1-GGUF", allow_patterns = ["*UD-IQ1_S*"], # 1 bit dynamique (168 Go) Utilisez "*UD-Q2_K_XL*" pour une quantification dynamique 2 bits (251 Go) ) ``` {% endcode %} 4. Modifier `--threads 32` pour le nombre de threads CPU, `--ctx-size 16384` pour la longueur du contexte, `--n-gpu-layers 2` pour le déchargement GPU, selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le aussi si vous n'avez qu'une inférence CPU. ## :mouse\_three\_button:Exécuter Cogito 109B MoE dans llama.cpp 1. Suivez les mêmes instructions que pour l’exécution du [modèle 671B ci-dessus](#run-cogito-671b-moe-in-llama.cpp). 2. Ensuite, exécutez ce qui suit : ```shellscript export LLAMA_CACHE="unsloth/cogito-v2-preview-llama-109B-MoE-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/cogito-v2-preview-llama-109B-MoE-GGUF:Q3_K_XL \ --n-gpu-layers 99 \ --temp 0.6 \ --min-p 0.01 \ --top-p 0.9 \ --ctx-size 16384 \ --jinja \ -ot ".ffn_.*_exps.=CPU" ``` ## :deciduous\_tree:Exécuter Cogito 405B Dense dans llama.cpp 1. Suivez les mêmes instructions que pour l’exécution du [modèle 671B ci-dessus](#run-cogito-671b-moe-in-llama.cpp). 2. Ensuite, exécutez ce qui suit : ```shellscript export LLAMA_CACHE="unsloth/cogito-v2-preview-llama-405B-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/cogito-v2-preview-llama-405B-GGUF:Q2_K_XL \ --n-gpu-layers 99 \ --temp 0.6 \ --min-p 0.01 \ --top-p 0.9 \ --jinja \ --ctx-size 16384 ``` ## :sunglasses: Exécuter Cogito 70B Dense dans llama.cpp 1. Suivez les mêmes instructions que pour l’exécution du [modèle 671B ci-dessus](#run-cogito-671b-moe-in-llama.cpp). 2. Ensuite, exécutez ce qui suit : ```shellscript export LLAMA_CACHE="unsloth/cogito-v2-preview-llama-70B-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/cogito-v2-preview-llama-70B-GGUF:Q4_K_XL \ --n-gpu-layers 99 \ --temp 0.6 \ --min-p 0.01 \ --top-p 0.9 \ --jinja \ --ctx-size 16384 ``` Voir pour plus de détails --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/fr/modeles/tutorials/cogito-v2-how-to-run-locally.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.