GLM-4.6 : Guide d'exécution locale

Un guide pour exécuter Z.ai GLM-4.6 et le modèle GLM-4.6V-Flash sur votre propre appareil local !

GLM-4.6 et GLM-4.6V-Flash sont les derniers modèles de raisonnement de Z.ai, atteignant des performances SOTA sur les benchmarks de codage et d'agents tout en offrant des conversations améliorées. GLM-4.6V-Flash le modèle plus petit de 9B a été publié en décembre 2025 et vous pouvez également l'exécuter maintenant.

Le modèle complet de 355 milliards de paramètres nécessite 400 Go d'espace disque, tandis que le GGUF dynamique 2 bits Unsloth réduit la taille à 135Go (-75%). GLM-4.6-GGUF

Nous avons effectué plusieurs corrections de modèle de chat pour GLM-4.6 afin de faire llama.cpp/llama-cli --jinja fonctionner - veuillez n'utiliser que --jinja sinon la sortie sera incorrecte !

Vous avez demandé des benchmarks sur nos quants, nous présentons donc les résultats Aider Polyglot ! Nos scores GGUF Dynamic 3-bit DeepSeek V3.1 75.6%, dépassant de nombreux LLM SOTA en précision complète. En savoir plus.

Tous les téléchargements utilisent Unsloth méthodologie Dynamic 2.0 pour des performances SOTA en MMLU 5-shot et Aider, ce qui signifie que vous pouvez exécuter et affiner des LLM GLM quantifiés avec une perte d'exactitude minimale.

Navigation des tutoriels :

Exécuter GLM-4.6V-Flash Exécuter GLM-4.6

🐛Modèle de chat Unsloth et corrections de bugs

L'une des corrections importantes que nous avons apportées concerne un problème avec l'utilisation des GGUFs pour les prompts, où le deuxième prompt ne fonctionnait pas. Nous avons corrigé ce problème ; cependant, ce problème persiste toujours dans les GGUFs sans nos corrections. Par exemple, en utilisant n'importe quel GGUF GLM-4.6 non-Unsloth, la première conversation fonctionne bien, mais la deuxième plante.

Nous avons résolu cela dans notre modèle de chat, donc en utilisant notre version, les conversations au-delà de la deuxième (troisième, quatrième, etc.) fonctionnent sans erreurs. Il subsiste encore des problèmes avec l'appel d'outils, que nous n'avons pas encore entièrement investigués par manque de bande passante. Nous avons déjà informé l'équipe GLM de ces problèmes restants.

🔎Particularités et corrections de GLM 4.6V Flash

GLM-4.6V-Flash peut raisonner et produire des sorties en chinois. Ce n'est pas unique à nos quants, mais une bizarrerie du modèle. Utilisez un prompt système « Répondre en anglais et raisonner en anglais » pour forcer le raisonnement et les sorties en anglais !

Nous avons testé les quants BF16 et Q8_0 d'un autre fournisseur de quantification, et tous semblent raisonner en chinois. Par exemple, 2 quants séparés sur la seed 3407 et avec le même prompt « Create a Flappy Bird game in Python » montrent un raisonnement en chinois :

En utilisant un prompt système « Reason in English » via --system-prompt "Respond in English" dans llama.cpp, c.-à-d. comme ci-dessous :

./llama.cpp/llama-cli -hf unsloth/GLM-4.6V-Flash-GGUF:BF16 \
    --jinja --temp 0.8 --top-p 0.6 --top-k 2 --repeat-penalty 1.1 --min-p 0.0 --seed 3407 \
    --prompt "Create a Flappy Bird game in Python" --system-prompt "Respond in English"

Nous obtenons un raisonnement en chinois, mais des sorties en anglais. Nous posons aussi une question de suivi « What is 1+1 » et n'obtenons que de l'anglais :

Et enfin, en utilisant un prompt système « Respond in English and reason in English » via --system-prompt "Respond in English and reason in English" dans llama.cpp, c.-à-d. comme ci-dessous :

./llama.cpp/llama-cli -hf unsloth/GLM-4.6V-Flash-GGUF:BF16 \
    --jinja --temp 0.8 --top-p 0.6 --top-k 2 --repeat-penalty 1.1 --min-p 0.0 --seed 3407 \
    --prompt "Create a Flappy Bird game in Python" \
    --system-prompt "Respond in English and reason in English"

Nous obtenons un raisonnement en anglais et des sorties en anglais ! Nous posons aussi une question de suivi « What is 1+1 » et n'obtenons que de l'anglais :

⚙️ Guide d'utilisation

La quantification dynamique 2 bits UD-Q2_K_XL utilise 135 Go d'espace disque - cela fonctionne bien dans un 1x24Go de carte et 128 Go de RAM avec déchargement MoE. Le GGUF 1 bit UD-TQ1 fonctionne également nativement dans Ollama!

Vous devez utiliser --jinja pour les quants llama.cpp - cela utilise nos modèles de chat fixes et active le bon modèle ! Vous pourriez obtenir des résultats incorrects si vous n'utilisez pas --jinja

Les quants 4 bits tiendront dans un GPU 1x 40Go (avec les couches MoE déchargées en RAM). Attendez-vous à environ 5 tokens/s avec cette configuration si vous disposez en plus de 165 Go de RAM. Il est recommandé d'avoir au moins 205 Go de RAM pour exécuter cette quantification 4 bits. Pour des performances optimales, vous aurez besoin d'au moins 205 Go de mémoire unifiée ou de 205 Go combinés RAM+VRAM pour 5+ tokens/s. Pour apprendre comment augmenter la vitesse de génération et adapter des contextes plus longs, lire ici.

Bien que ce ne soit pas obligatoire, pour de meilleures performances, faites en sorte que votre VRAM + RAM combinées soient égales à la taille du quant que vous téléchargez. Sinon, le déchargement sur disque dur / SSD fonctionnera avec llama.cpp, seule l'inférence sera plus lente.

Paramètres recommandés

Selon Z.ai, il existe différents réglages pour l'inférence GLM-4.6V-Flash & GLM-4.6 :

GLM-4.6V-Flash

GLM-4.6

température = 0.8

température = 1.0

top_p = 0.6 (recommandé)

top_p = 0.95 (recommandé pour le codage)

top_k = 2 (recommandé)

top_k = 40 (recommandé pour le codage)

longueur de contexte 128K ou moins

longueur de contexte 200K ou moins

repeat_penalty = 1.1

max_generate_tokens = 16 384

Utilisez --jinja pour les variantes llama.cpp - nous avons également corrigé certains problèmes de modèles de chat !

Tutoriels Exécuter GLM-4.6 :

Consultez nos guides pas à pas pour exécuter GLM-4.6V-Flash et le grand GLM-4.6 modèles.

GLM-4.6V-Flash

NOUVEAU au 16 déc. 2025 : GLM-4.6-V est maintenant mis à jour avec la prise en charge de la vision !

✨ Exécuter dans llama.cpp

Obtenez la dernière llama.cpp sur GitHub. Vous pouvez également utiliser les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ceci : (:Q8_K_XL) est le type de quantification. Vous pouvez également télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="dossier" pour forcer llama.cpp à enregistrer à un emplacement spécifique. Rappelez-vous que le modèle a seulement une longueur de contexte maximale de 128K.

export LLAMA_CACHE="unsloth/GLM-4.6V-Flash-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/GLM-4.6V-Flash-GGUF:UD-Q8_K_XL \
    --n-gpu-layers 99 \
    --jinja \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 0.8 \
    --top-p 0.6 \
    --top-k 2 \
    --repeat_penalty 1.1 \
    -ot ".ffn_.*_exps.=CPU"

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q4_K_XL (quantification dynamique 4 bits) ou d'autres versions quantifiées comme Q8_K_XL .

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Peut parfois limiter le débit, donc mettez à 0 pour désactiver
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/GLM-4.6V-Flash-GGUF",
    local_dir = "unsloth/GLM-4.6V-Flash-GGUF",
    allow_patterns = ["*UD-Q8_K_XL*"],
)

GLM-4.6

🦙 Exécuter dans Ollama

Installer ollama si vous ne l'avez pas encore fait ! Pour exécuter d'autres variantes du modèle, voir ici.

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

Exécutez le modèle ! Notez que vous pouvez appeler ollama servedans un autre terminal s'il échoue ! Nous incluons toutes nos corrections et paramètres suggérés (température etc.) dans params dans notre upload Hugging Face !

OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run hf.co/unsloth/GLM-4.6-GGUF:TQ1_0

Pour exécuter d'autres quants, vous devez d'abord fusionner les fichiers GGUF divisés en 1 comme le code ci-dessous. Ensuite vous devrez exécuter le modèle localement.

./llama.cpp/llama-gguf-split --merge \
  GLM-4.6-GGUF/GLM-4.6-UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
	fichier_fusionné.gguf

OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run fichier_fusionné.gguf

✨ Exécuter dans llama.cpp

Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggerganov/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q2_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="dossier" pour forcer llama.cpp à enregistrer à un emplacement spécifique. Rappelez-vous que le modèle a seulement une longueur de contexte maximale de 128K.

Veuillez essayer -ot ".ffn_.*_exps.=CPU" pour décharger toutes les couches MoE sur le CPU ! Cela vous permet effectivement de placer toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous avez plus de capacité GPU.

Si vous avez un peu plus de mémoire GPU, essayez -ot ".ffn_(up|down)_exps.=CPU" Cela décharge les couches MoE de projection up et down.

Essayez -ot ".ffn_(up)_exps.=CPU" si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection up.

Et enfin déchargez toutes les couches via -ot ".ffn_.*_exps.=CPU" Ceci utilise le moins de VRAM.

Vous pouvez aussi personnaliser la regex, par exemple -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" signifie décharger les couches MoE gate, up et down mais uniquement à partir de la 6e couche.

export LLAMA_CACHE="unsloth/GLM-4.6-GGUF"
./llama.cpp/llama-cli \
    --model GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 40 \
    -ot ".ffn_.*_exps.=CPU"

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q2_K_XL (quant dynamique 2 bits) ou d'autres versions quantifiées comme Q4_K_XL . Nous recommandons d'utiliser notre quant dynamique 2,7 bits UD-Q2_K_XL pour équilibrer taille et précision.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Peut parfois limiter le débit, donc mettez à 0 pour désactiver
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/GLM-4.6-GGUF",
    local_dir = "unsloth/GLM-4.6-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"], # Dynamic 2bit Utilisez "*UD-TQ1_0*" pour Dynamic 1bit
)

Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement sur GPU du nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous avez uniquement une inférence CPU.

./llama.cpp/llama-cli \
    --model unsloth/GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
    --jinja \
    --n-gpu-layers 99 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 40 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU"

✨ Déployer avec llama-server et la bibliothèque de complétions d'OpenAI

Pour utiliser llama-server pour le déploiement, utilisez la commande suivante :

./llama.cpp/llama-server \
    --model unsloth/GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
    --alias "unsloth/GLM-4.6" \
    --n-gpu-layers 999 \
    -ot ".ffn_.*_exps.=CPU" \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 40 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

Puis utilisez la bibliothèque Python d'OpenAI après pip install openai :

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/GLM-4.6",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)

💽Téléversements de modèles

TOUS nos téléversements - y compris ceux qui ne sont pas basés sur imatrix ou dynamiques, utilisent notre jeu de données de calibration, spécialement optimisé pour les tâches conversationnelles, de codage et de langue.

Téléversements complets du modèle GLM-4.6 ci-dessous :

Nous avons aussi téléversé IQ4_NL et Q4_1 des quants qui s'exécutent spécifiquement plus rapidement pour les appareils ARM et Apple respectivement.

Bits MoE

Type + Lien

Taille sur disque

Détails

1,66 bit

TQ1_0

84Go

1,92/1,56 bit

1,78 bit

IQ1_S

96Go

2,06/1,56 bit

1,93 bit

IQ1_M

107Go

2.5/2.06/1.56

2,42 bit

IQ2_XXS

115Go

2,5/2,06 bit

2,71 bit

Q2_K_XL

135Go

3,5/2,5 bit

3,12 bit

IQ3_XXS

145Go

3,5/2,06 bit

3,5 bit

Q3_K_XL

158 Go

4,5/3,5 bit

4,5 bit

Q4_K_XL

204Go

5,5/4,5 bit

5,5 bit

Q5_K_XL

252Go

6,5/5,5 bit

🏂 Amélioration de la vitesse de génération

Si vous avez plus de VRAM, vous pouvez essayer de décharger plus de couches MoE, ou de décharger des couches entières elles-mêmes.

Normalement, -ot ".ffn_.*_exps.=CPU" décharge toutes les couches MoE sur le CPU ! Cela vous permet effectivement de placer toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous avez plus de capacité GPU.

Si vous avez un peu plus de mémoire GPU, essayez -ot ".ffn_(up|down)_exps.=CPU" Cela décharge les couches MoE de projection up et down.

Essayez -ot ".ffn_(up)_exps.=CPU" si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection up.

Llama.cpp introduit également le mode haut débit. Utilisez llama-parallel. Lisez-en plus à ce sujet ici. Vous pouvez aussi quantifier le cache KV en 4 bits par exemple pour réduire les mouvements VRAM / RAM, ce qui peut aussi accélérer le processus de génération.

📐Comment adapter un long contexte (plein 200K)

Pour adapter un contexte plus long, vous pouvez utiliser quantification du cache KV pour quantifier les caches K et V en bits plus faibles. Cela peut également augmenter la vitesse de génération en réduisant les mouvements de données RAM / VRAM. Les options autorisées pour la quantification de K (par défaut est f16) incluent ci-dessous.

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

Vous devriez utiliser les _1 variantes pour une précision quelque peu accrue, bien que ce soit légèrement plus lent. Par ex q4_1, q5_1

Vous pouvez aussi quantifier le cache V, mais vous devrez compiler llama.cpp avec le support Flash Attention via -DGGML_CUDA_FA_ALL_QUANTS=ON, et utiliser --flash-attn pour l'activer. Ensuite vous pouvez l'utiliser conjointement avec --cache-type-k :

--cache-type-v f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

PrécédentKimi K2 Thinking SuivantQwen3-Next

Mis à jour il y a 7 heures

Ce contenu vous a-t-il été utile ?

hashtag🐛Modèle de chat Unsloth et corrections de bugs

hashtag🔎Particularités et corrections de GLM 4.6V Flash

hashtag⚙️ Guide d'utilisation

hashtagParamètres recommandés

hashtagTutoriels Exécuter GLM-4.6 :

hashtagGLM-4.6V-Flash

hashtag✨ Exécuter dans llama.cpp

hashtagGLM-4.6

hashtag🦙 Exécuter dans Ollama

hashtag✨ Exécuter dans llama.cpp

hashtag✨ Déployer avec llama-server et la bibliothèque de complétions d'OpenAI

hashtag💽Téléversements de modèles

hashtag🏂 Amélioration de la vitesse de génération

hashtag📐Comment adapter un long contexte (plein 200K)

🐛Modèle de chat Unsloth et corrections de bugs

🔎Particularités et corrections de GLM 4.6V Flash

⚙️ Guide d'utilisation

Paramètres recommandés

Tutoriels Exécuter GLM-4.6 :

GLM-4.6V-Flash

✨ Exécuter dans llama.cpp

GLM-4.6

🦙 Exécuter dans Ollama

✨ Exécuter dans llama.cpp

✨ Déployer avec llama-server et la bibliothèque de complétions d'OpenAI

💽Téléversements de modèles

🏂 Amélioration de la vitesse de génération

📐Comment adapter un long contexte (plein 200K)