# Cogito v2.1 : comment l'exécuter localement

{% hint style="success" %}
Deep Cogito v2.1 est un MoE mis à jour de 671B qui est le modèle à poids ouverts le plus puissant au 19 novembre 2025.
{% endhint %}

Cogito v2.1 est disponible en une taille MoE de 671B, tandis que Cogito v2 Preview est [Deep Cogito](https://www.deepcogito.com/)la publication de modèles s'étend sur 4 tailles de modèles allant de 70B à 671B. En utilisant **IDA (Distillation itérée et Amplification)**, ces modèles sont entraînés avec le modèle internalisant le processus de raisonnement via une amélioration itérative de la politique, plutôt que de simplement chercher plus longtemps au moment de l'inférence (comme DeepSeek R1).

Deep Cogito est basé à [San Francisco, États-Unis](https://techcrunch.com/2025/04/08/deep-cogito-emerges-from-stealth-with-hybrid-ai-reasoning-models/) (comme Unsloth :flag\_us:) et nous sommes ravis de fournir des modèles dynamiques quantifiés pour les 4 tailles de modèles ! Tous les téléchargements utilisent Unsloth [Dynamic 2.0](/docs/fr/bases/unsloth-dynamic-2.0-ggufs.md) pour des performances SOTA en MMLU 5-shot et divergence KL, ce qui signifie que vous pouvez exécuter et affiner ces LLM quantifiés avec une perte d'exactitude minimale !

**Navigation des tutoriels :**

<a href="https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms/cogito-v2-how-to-run-locally#run-cogito-671b-moe-in-llama.cpp" class="button secondary">Exécuter MoE 671B</a><a href="https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms/cogito-v2-how-to-run-locally#run-cogito-109b-moe-in-llama.cpp" class="button secondary">Exécuter MoE 109B</a><a href="https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms/cogito-v2-how-to-run-locally#run-cogito-405b-dense-in-llama.cpp" class="button secondary">Exécuter Dense 405B</a><a href="https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms/cogito-v2-how-to-run-locally#run-cogito-70b-dense-in-llama.cpp" class="button secondary">Exécuter Dense 70B</a>

{% hint style="success" %}
Choisissez la taille de modèle qui correspond à votre matériel ! Nous téléchargeons des variantes de 1,58 bit à 16 bit pour les 4 tailles de modèles !
{% endhint %}

## :gem: Tailles de modèles et téléchargements

Il y a 4 tailles de modèles :

1. 2 modèles Dense basés sur Llama - 70B et 405B
2. 2 modèles MoE basés sur Llama 4 Scout (109B) et DeepSeek R1 (671B)

<table data-full-width="false"><thead><tr><th>Tailles de modèles</th><th width="256.9999694824219">Quant recommandé &#x26; Lien</th><th>Taille sur disque</th><th>Architecture</th></tr></thead><tbody><tr><td>70B Dense</td><td><a href="https://huggingface.co/unsloth/cogito-v2-preview-llama-70B-GGUF">UD-Q4_K_XL</a></td><td><strong>44 Go</strong></td><td>Llama 3 70B</td></tr><tr><td>109B MoE</td><td><a href="https://huggingface.co/unsloth/cogito-v2-preview-llama-109B-MoE-GGUF">UD-Q3_K_XL</a></td><td><strong>50 Go</strong></td><td>Llama 4 Scout</td></tr><tr><td>405B Dense</td><td><a href="https://huggingface.co/unsloth/cogito-v2-preview-llama-405B-GGUF">UD-Q2_K_XL</a></td><td><strong>152 Go</strong></td><td>Llama 3 405B</td></tr><tr><td>671B MoE</td><td><a href="https://huggingface.co/unsloth/cogito-v2-preview-deepseek-671B-MoE-GGUF">UD-Q2_K_XL</a></td><td><strong>251 Go</strong></td><td>DeepSeek R1</td></tr></tbody></table>

{% hint style="success" %}
Bien que non nécessaire, pour de meilleures performances, ayez votre VRAM + RAM combinées égales à la taille du quant que vous téléchargez. Si vous avez moins de VRAM + RAM, le quant fonctionnera toujours, mais sera beaucoup plus lent.
{% endhint %}

## 🐳 Exécuter Cogito 671B MoE dans llama.cpp

1. Obtenez le dernier `llama.cpp` sur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Changez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n'avez pas de GPU ou si vous souhaitez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez normalement - le support Metal est activé par défaut.

{% code overflow="wrap" %}

```shellscript
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}

2. Si vous voulez utiliser `llama.cpp` directement pour charger les modèles, vous pouvez faire ce qui suit : (:IQ1\_S) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Ceci est similaire à `ollama run` . Utilisez `export LLAMA_CACHE="dossier"` pour forcer `llama.cpp` pour enregistrer à un emplacement spécifique.

{% hint style="success" %}
Veuillez essayer `-ot ".ffn_.*_exps.=CPU"` pour décharger toutes les couches MoE sur le CPU ! Cela vous permet effectivement de placer toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous avez plus de capacité GPU.

Si vous avez un peu plus de mémoire GPU, essayez `-ot ".ffn_(up|down)_exps.=CPU"` Cela décharge les couches MoE de projection up et down.

Essayez `-ot ".ffn_(up)_exps.=CPU"` si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection up.

Et enfin déchargez toutes les couches via `-ot ".ffn_.*_exps.=CPU"` Ceci utilise le moins de VRAM.

Vous pouvez aussi personnaliser la regex, par exemple `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` signifie décharger les couches MoE gate, up et down mais uniquement à partir de la 6e couche.
{% endhint %}

```shellscript
export LLAMA_CACHE="unsloth/cogito-671b-v2.1-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/cogito-671b-v2.1-GGUF:UD-Q2_K_XL \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --top_p 0.95 \
    --min_p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \
    --jinja \
    -ot ".ffn_.*_exps.=CPU"
```

3. Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir `UD-IQ1_S`(quant dynamique 1,78 bit) ou d'autres versions quantifiées comme `Q4_K_M` . Nous <mark style="background-color:green;">**recommandons d'utiliser notre quant dynamique 2,7 bits**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**`UD-Q2_K_XL`**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**pour équilibrer taille et précision**</mark>. Plus de versions sur : <https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF>

{% code overflow="wrap" %}

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Peut parfois limiter le débit, donc mettez à 0 pour désactiver
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/cogito-671b-v2.1-GGUF",
    local_dir = "unsloth/cogito-671b-v2.1-GGUF",
    allow_patterns = ["*UD-IQ1_S*"], # Dynamique 1bit (168Go) Utilisez "*UD-Q2_K_XL*" pour Dynamique 2bit (251Go)
)
```

{% endcode %}

4. Modifier `--threads 32` pour le nombre de threads CPU, `--ctx-size 16384` pour la longueur de contexte, `--n-gpu-layers 2` pour le déchargement sur GPU du nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous avez uniquement une inférence CPU.

## :mouse\_three\_button:Exécuter Cogito 109B MoE dans llama.cpp

1. Suivez les mêmes instructions que pour l'exécution du [modèle 671B ci-dessus](#run-cogito-671b-moe-in-llama.cpp).
2. Puis exécutez ce qui suit :

```shellscript
export LLAMA_CACHE="unsloth/cogito-v2-preview-llama-109B-MoE-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/cogito-v2-preview-llama-109B-MoE-GGUF:Q3_K_XL \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min-p 0.01 \
    --top-p 0.9 \
    --ctx-size 16384 \
    --jinja \
    -ot ".ffn_.*_exps.=CPU"
```

## :deciduous\_tree:Exécuter Cogito 405B Dense dans llama.cpp

1. Suivez les mêmes instructions que pour l'exécution du [modèle 671B ci-dessus](#run-cogito-671b-moe-in-llama.cpp).
2. Puis exécutez ce qui suit :

```shellscript
export LLAMA_CACHE="unsloth/cogito-v2-preview-llama-405B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/cogito-v2-preview-llama-405B-GGUF:Q2_K_XL \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min-p 0.01 \
    --top-p 0.9 \
    --jinja \
    --ctx-size 16384
```

## :sunglasses: Exécuter Cogito 70B Dense dans llama.cpp

1. Suivez les mêmes instructions que pour l'exécution du [modèle 671B ci-dessus](#run-cogito-671b-moe-in-llama.cpp).
2. Puis exécutez ce qui suit :

```shellscript
export LLAMA_CACHE="unsloth/cogito-v2-preview-llama-70B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/cogito-v2-preview-llama-70B-GGUF:Q4_K_XL \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min-p 0.01 \
    --top-p 0.9 \
    --jinja \
    --ctx-size 16384
```

Voir <https://www.deepcogito.com/research/cogito-v2-1> pour plus de détails


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/tutorials/cogito-v2-how-to-run-locally.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
