> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/fr/modeles/tutorials/glm-4.6-how-to-run-locally.md).

# GLM-4.6 : guide pour l'exécuter localement

GLM-4.6 et **GLM-4.6V-Flash** sont les derniers modèles de raisonnement de **Z.ai**, atteignant des performances SOTA sur les benchmarks de codage et d’agents tout en offrant des conversations améliorées. [**GLM-4.6V-Flash**](#glm-4.6v-flash) **le plus petit modèle de 9B est sorti en décembre 2025 et vous pouvez aussi l’exécuter dès maintenant.**

Le modèle complet de 355 milliards de paramètres nécessite **400 Go** d’espace disque, tandis que le GGUF dynamique 2 bits d’Unsloth réduit la taille à **135 Go** (-**75%)**. [**GLM-4.6-GGUF**](https://huggingface.co/unsloth/GLM-4.6-GGUF)

{% hint style="success" %}
Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (VRAM + RAM système) dépasse la taille du fichier du modèle quantifié que vous téléchargez. Si ce n’est pas le cas, llama.cpp peut toujours fonctionner via le déchargement SSD/HDD, mais l’inférence sera plus lente.
{% endhint %}

Tous les téléchargements utilisent Unsloth [Dynamic 2.0](/docs/fr/notions-de-base/unsloth-dynamic-2.0-ggufs.md) pour des performances SOTA en MMLU 5-shot et Aider, ce qui signifie que vous pouvez exécuter et affiner des LLM GLM quantifiés avec une perte d’exactitude minimale.

**Navigation des tutoriels :**

<a href="#glm-4.6v-flash" class="button secondary">Exécuter GLM-4.6V-Flash</a><a href="#glm-4.6" class="button secondary">Exécuter GLM-4.6</a>

### :bug:Modèle de chat Unsloth et corrections de bugs

L’une des corrections importantes que nous avons apportées concerne un problème de prompting des GGUF, où le deuxième prompt ne fonctionnait pas. Nous avons corrigé ce problème, cependant, il persiste toujours dans les GGUF sans nos correctifs. Par exemple, lors de l’utilisation d’un GGUF GLM-4.6 non Unsloth, la première conversation fonctionne bien, mais la deuxième casse.

<figure><img src="/files/93406b65febb4ad4458bf107a44ca39e91682201" alt="" width="563"><figcaption></figcaption></figure>

Nous avons résolu cela dans notre modèle de chat, donc lorsque vous utilisez notre version, les conversations au-delà de la deuxième (troisième, quatrième, etc.) fonctionnent sans aucune erreur. Il reste encore quelques problèmes avec l’appel d’outils, que nous n’avons pas encore entièrement étudiés en raison de limites de bande passante. Nous avons déjà informé l’équipe GLM de ces problèmes restants.

### :mag\_right:Particularités et correctifs de GLM 4.6V Flash

{% hint style="info" %}
GLM-4.6V-Flash peut raisonner et produire des sorties en chinois. Ce n’est pas propre à nos quantifications, mais une particularité du modèle. Utilisez un prompt système « Réponds en anglais et raisonne en anglais » pour forcer le raisonnement et les sorties en anglais !
{% endhint %}

Nous avons testé les quantifications BF16 et Q8\_0 d’autres fournisseurs, et toutes semblent raisonner en chinois. Par exemple, 2 quantifications distinctes sur la graine 3407 et avec le même prompt « Crée un jeu Flappy Bird en Python » montrent un raisonnement en chinois :

{% columns %}
{% column %}

<figure><img src="/files/304ca62a6b0382e0e64f904af5c44353eac92992" alt=""><figcaption></figcaption></figure>
{% endcolumn %}

{% column %}

<figure><img src="/files/4b420322ba3838ed6857710293a34e501d611295" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

En utilisant un prompt système « Raisonne en anglais » via `--system-prompt "Respond in English"` dans llama.cpp, c’est-à-dire comme ci-dessous :

```bash
./llama.cpp/llama-cli -hf unsloth/GLM-4.6V-Flash-GGUF:BF16 \
    --jinja --temp 0.8 --top-p 0.6 --top-k 2 --repeat-penalty 1.1 --min-p 0.0 --seed 3407 \
    --prompt "Create a Flappy Bird game in Python" --system-prompt "Respond in English"
```

Nous obtenons un raisonnement en chinois, mais des sorties en anglais. Nous posons aussi une question de suivi « What is 1+1 » et obtenons uniquement de l’anglais :

<figure><img src="/files/8e897b63f4fa34d0a77306ce01fb036ab5007fa3" alt="" width="375"><figcaption></figcaption></figure>

Et enfin, en utilisant un prompt système « Réponds en anglais et raisonne en anglais » via `--system-prompt "Respond in English and reason in English"` dans llama.cpp, c’est-à-dire comme ci-dessous :

```bash
./llama.cpp/llama-cli -hf unsloth/GLM-4.6V-Flash-GGUF:BF16 \
    --jinja --temp 0.8 --top-p 0.6 --top-k 2 --repeat-penalty 1.1 --min-p 0.0 --seed 3407 \
    --prompt "Create a Flappy Bird game in Python" \
    --system-prompt "Respond in English and reason in English"
```

Nous obtenons un raisonnement en anglais et des sorties en anglais ! Nous posons aussi une question de suivi « What is 1+1 » et obtenons uniquement de l’anglais :

<figure><img src="/files/2b47e12572e3abba9d0746cebf7c122870ad7741" alt=""><figcaption></figcaption></figure>

## :gear: Guide d’utilisation

La quantification dynamique 2 bits UD-Q2\_K\_XL utilise 135 Go d’espace disque - cela fonctionne bien sur une **carte 1x24 Go et 128 Go de RAM** avec déchargement MoE. Le GGUF UD-TQ1 1 bit aussi **fonctionne nativement dans Ollama**!

{% hint style="info" %}
Vous devez utiliser `--jinja` pour les quantifications llama.cpp - cela utilise nos [modèles de chat corrigés](#chat-template-bug-fixes) et active le bon modèle ! Vous pourriez obtenir des résultats incorrects si vous n’utilisez pas `--jinja`
{% endhint %}

Les quantifications 4 bits tiendront sur un GPU 1x 40 Go (avec les couches MoE déchargées vers la RAM). Attendez-vous à environ 5 jetons/s avec cette configuration si vous disposez aussi de 165 Go de RAM supplémentaires. Il est recommandé d’avoir au moins 205 Go de RAM pour exécuter ce 4 bits. Pour des performances optimales, vous aurez besoin d’au moins 205 Go de mémoire unifiée ou 205 Go de RAM+VRAM combinées pour atteindre 5+ jetons/s. Pour apprendre à augmenter la vitesse de génération et à gérer des contextes plus longs, [lisez ici](#improving-generation-speed).

{% hint style="success" %}
Bien que ce ne soit pas obligatoire, pour de meilleures performances, faites en sorte que votre VRAM + RAM combinées soient égales à la taille de la quantification que vous téléchargez. Sinon, le déchargement vers le disque dur / SSD fonctionnera avec llama.cpp, mais l’inférence sera plus lente.
{% endhint %}

### Paramètres recommandés

Selon Z.ai, il existe différents paramètres pour l’inférence de GLM-4.6V-Flash et GLM-4.6 :

| GLM-4.6V-Flash                                                             | GLM-4.6                                                                                    |
| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------ |
| <mark style="background-color:green;">**température = 0,8**</mark>         | <mark style="background-color:green;">**température = 1,0**</mark>                         |
| <mark style="background-color:green;">**top\_p = 0,6**</mark> (recommandé) | <mark style="background-color:green;">**top\_p = 0,95**</mark> (recommandé pour le codage) |
| <mark style="background-color:green;">**top\_k = 2**</mark> (recommandé)   | <mark style="background-color:green;">**top\_k = 40**</mark> (recommandé pour le codage)   |
| **longueur de contexte de 128K** ou moins                                  | **longueur de contexte de 200K** ou moins                                                  |
| **repeat\_penalty = 1,1**                                                  |                                                                                            |
| **max\_generate\_tokens = 16 384**                                         | **max\_generate\_tokens = 16 384**                                                         |

* Utilisez `--jinja` pour les variantes llama.cpp - nous **avons aussi corrigé certains problèmes de modèle de chat !**

## Exécuter les tutoriels GLM-4.6 :

Consultez nos guides étape par étape pour exécuter [GLM-4.6V-Flash](#glm-4.6v-flash) et les grands [GLM-4.6](#glm-4.6) modèles.

### GLM-4.6V-Flash

{% hint style="success" %}
**NOUVEAU au 16 déc. 2025 : GLM-4.6-V est désormais mis à jour avec la prise en charge de la vision !**
{% endhint %}

#### ✨ Exécuter dans llama.cpp

{% stepper %}
{% step %}
Obtenez la dernière version `llama.cpp` sur [GitHub](https://github.com/ggml-org/llama.cpp). Vous pouvez aussi utiliser les instructions de compilation ci-dessous. Modifiez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d’habitude - la prise en charge de Metal est activée par défaut.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Si vous souhaitez utiliser `llama.cpp` directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q8\_K\_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à `ollama run` . Utilisez `export LLAMA_CACHE="folder"` pour forcer `llama.cpp` pour enregistrer dans un emplacement spécifique. N’oubliez pas que le modèle a une longueur de contexte maximale de seulement 128K.

```bash
export LLAMA_CACHE="unsloth/GLM-4.6V-Flash-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/GLM-4.6V-Flash-GGUF:UD-Q8_K_XL \
    --n-gpu-layers 99 \
    --jinja \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 0.8 \
    --top-p 0.6 \
    --top-k 2 \
    --repeat-penalty 1.1 \
    -ot ".ffn_.*_exps.=CPU"
```

{% endstep %}

{% step %}
Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir `UD-`Q4\_K\_XL (quantification dynamique 4 bits) ou d’autres versions quantifiées comme `Q8_K_XL` .

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Peut parfois appliquer une limite de débit, donc mettez à 0 pour désactiver
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/GLM-4.6V-Flash-GGUF",
    local_dir = "unsloth/GLM-4.6V-Flash-GGUF",
    allow_patterns = ["*UD-Q8_K_XL*"],
)
```

{% endstep %}
{% endstepper %}

### GLM-4.6

#### :llama: Exécuter dans Ollama

{% stepper %}
{% step %}
Installez `ollama` si ce n’est pas déjà fait ! Pour exécuter plus de variantes du modèle, [voir ici](https://unsloth.ai/docs/fr/modeles/tutorials/pages/b3b1fa5961974e1d851732430e0f9edd08662c7c#run-in-llama.cpp).

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

{% endstep %}

{% step %}
Exécutez le modèle ! Notez que vous pouvez appeler `ollama serve`dans un autre terminal si cela échoue ! Nous incluons tous nos correctifs et paramètres suggérés (température, etc.) dans `params` dans notre envoi Hugging Face !

```
OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run hf.co/unsloth/GLM-4.6-GGUF:TQ1_0
```

{% endstep %}

{% step %}
Pour exécuter d’autres quantifications, vous devez d’abord fusionner les fichiers GGUF séparés en un seul, comme dans le code ci-dessous. Vous devrez ensuite exécuter le modèle localement.

```bash
./llama.cpp/llama-gguf-split --merge \
  GLM-4.6-GGUF/GLM-4.6-UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
	merged_file.gguf
```

```bash
OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run merged_file.gguf
```

{% endstep %}
{% endstepper %}

#### ✨ Exécuter dans llama.cpp

{% stepper %}
{% step %}
Obtenez la dernière version `llama.cpp` sur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Modifiez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Si vous souhaitez utiliser `llama.cpp` directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q2\_K\_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à `ollama run` . Utilisez `export LLAMA_CACHE="folder"` pour forcer `llama.cpp` pour enregistrer dans un emplacement spécifique. N’oubliez pas que le modèle a une longueur de contexte maximale de seulement 128K.

{% hint style="success" %}
Veuillez essayer `-ot ".ffn_.*_exps.=CPU"` pour décharger toutes les couches MoE vers le CPU ! Cela permet effectivement de faire tenir toutes les couches non MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l’expression regex pour faire tenir davantage de couches si vous avez plus de capacité GPU.

Si vous avez un peu plus de mémoire GPU, essayez `-ot ".ffn_(up|down)_exps.=CPU"` Cela décharge les couches MoE de projection vers le haut et vers le bas.

Essayez `-ot ".ffn_(up)_exps.=CPU"` si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection vers le haut.

Et enfin, déchargez toutes les couches via `-ot ".ffn_.*_exps.=CPU"` Cela utilise le moins de VRAM.

Vous pouvez aussi personnaliser la regex, par exemple `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` signifie de décharger les couches MoE gate, up et down, mais uniquement à partir de la 6e couche.
{% endhint %}

```bash
export LLAMA_CACHE="unsloth/GLM-4.6-GGUF"
./llama.cpp/llama-cli \
    --model GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 40 \
    -ot ".ffn_.*_exps.=CPU"
```

{% endstep %}

{% step %}
Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir `UD-`Q2\_K\_XL (quantification dynamique 2 bits) ou d’autres versions quantifiées comme `Q4_K_XL` . Nous <mark style="background-color:green;">**recommandons d’utiliser notre quantification dynamique 2,7 bits**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**`UD-Q2_K_XL`**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**pour équilibrer taille et précision**</mark>.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Peut parfois appliquer une limite de débit, donc mettez à 0 pour désactiver
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/GLM-4.6-GGUF",
    local_dir = "unsloth/GLM-4.6-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"], # 2 bits dynamique Utilisez "*UD-TQ1_0*" pour 1 bit dynamique
)
```

{% endstep %}

{% step %}
Vous pouvez modifier `--threads 32` pour le nombre de threads CPU, `--ctx-size 16384` pour la longueur du contexte, `--n-gpu-layers 2` pour le déchargement GPU, selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le aussi si vous n’utilisez que le CPU pour l’inférence.

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
    --jinja \
    --n-gpu-layers 99 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 40 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU"
```

{% endcode %}
{% endstep %}
{% endstepper %}

### ✨ Déployez avec llama-server et la bibliothèque de complétion d’OpenAI

Pour utiliser llama-server pour le déploiement, utilisez la commande suivante :

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
    --model unsloth/GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
    --alias "unsloth/GLM-4.6" \
    --n-gpu-layers 999 \
    -ot ".ffn_.*_exps.=CPU" \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 40 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja
```

{% endcode %}

Utilisez ensuite la bibliothèque Python d’OpenAI après `pip install openai` :

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/GLM-4.6",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)
```

### :minidisc:Téléchargements du modèle

**TOUS nos téléchargements** - y compris ceux qui ne sont pas basés sur imatrix ou dynamiques - utilisent notre jeu de données de calibration, spécifiquement optimisé pour les tâches de conversation, de codage et de langage.

* Téléchargements complets du modèle GLM-4.6 ci-dessous :

Nous avons également téléversé [IQ4\_NL](https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/IQ4_NL) et [Q4\_1](https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/Q4_1) quantifications qui s’exécutent spécifiquement plus vite sur les appareils ARM et Apple respectivement.

<table data-full-width="false"><thead><tr><th>Bits MoE</th><th>Type + lien</th><th>Taille disque</th><th>Détails</th></tr></thead><tbody><tr><td>1,66 bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF?show_file_info=GLM-4.6-UD-TQ1_0.gguf">TQ1_0</a></td><td><strong>84 Go</strong></td><td>1,92/1,56 bit</td></tr><tr><td>1,78 bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ1_S">IQ1_S</a></td><td><strong>96 Go</strong></td><td>2,06/1,56 bit</td></tr><tr><td>1,93 bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ1_M">IQ1_M</a></td><td><strong>107 Go</strong></td><td>2.5/2.06/1.56</td></tr><tr><td>2,42 bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ2_XXS">IQ2_XXS</a></td><td><strong>115 Go</strong></td><td>2,5/2,06 bit</td></tr><tr><td>2,71 bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q2_K_XL">Q2_K_XL</a></td><td><strong>135 Go</strong></td><td>3,5/2,5 bit</td></tr><tr><td>3,12 bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ3_XXS">IQ3_XXS</a></td><td><strong>145 Go</strong></td><td>3,5/2,06 bit</td></tr><tr><td>3,5 bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q3_K_XL">Q3_K_XL</a></td><td><strong>158 Go</strong></td><td>4,5/3,5 bit</td></tr><tr><td>4,5 bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q4_K_XL">Q4_K_XL</a></td><td><strong>204 Go</strong></td><td>5,5/4,5 bit</td></tr><tr><td>5,5 bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q5_K_XL">Q5_K_XL</a></td><td><strong>252 Go</strong></td><td>6,5/5,5 bit</td></tr></tbody></table>

### :snowboarder: Améliorer la vitesse de génération

Si vous avez plus de VRAM, vous pouvez essayer de décharger davantage de couches MoE, ou de décharger des couches entières.

Normalement, `-ot ".ffn_.*_exps.=CPU"` décharge toutes les couches MoE vers le CPU ! Cela permet effectivement de faire tenir toutes les couches non MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l’expression regex pour faire tenir davantage de couches si vous avez plus de capacité GPU.

Si vous avez un peu plus de mémoire GPU, essayez `-ot ".ffn_(up|down)_exps.=CPU"` Cela décharge les couches MoE de projection vers le haut et vers le bas.

Essayez `-ot ".ffn_(up)_exps.=CPU"` si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection vers le haut.

Vous pouvez aussi personnaliser la regex, par exemple `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` signifie de décharger les couches MoE gate, up et down, mais uniquement à partir de la 6e couche.

Llama.cpp introduit également un mode à haut débit. Utilisez `llama-parallel`. En savoir plus à ce sujet [ici](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel). Vous pouvez aussi **quantifier le cache KV à 4 bits** par exemple pour réduire les mouvements entre VRAM et RAM, ce qui peut aussi accélérer le processus de génération.

### 📐Comment faire tenir un long contexte (200K complet)

Pour faire tenir un contexte plus long, vous pouvez utiliser **la quantification du cache KV** pour quantifier les caches K et V à des bits plus faibles. Cela peut aussi augmenter la vitesse de génération grâce à une réduction des mouvements de données RAM/VRAM. Les options autorisées pour la quantification K (la valeur par défaut est `f16`) incluent les suivantes.

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

Vous devriez utiliser les variantes `_1` pour une précision légèrement améliorée, bien qu’elles soient un peu plus lentes. Par exemple `q4_1, q5_1`

Vous pouvez aussi quantifier le cache V, mais vous devrez **compiler llama.cpp avec la prise en charge de Flash Attention** via `-DGGML_CUDA_FA_ALL_QUANTS=ON`, et utiliser `--flash-attn` pour l’activer. Ensuite, vous pouvez l’utiliser avec `--cache-type-k` :

`--cache-type-v f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/tutorials/glm-4.6-how-to-run-locally.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
