GLM-5 : Guide pour exécuter localement
Exécutez le nouveau modèle GLM-5 de Z.ai sur votre propre appareil local !
GLM-5 est le dernier modèle de raisonnement de Z.ai, offrant de meilleures performances en codage, agents et chat que GLM-4.7, et est conçu pour le raisonnement sur de longs contextes. Il améliore les performances sur des benchmarks tels que Humanity's Last Exam 50,4 % (+7,6 %), BrowseComp 75,9 % (+8,4 %) et Terminal-Bench-2.0 61,1 % (+28,3 %).
Le modèle complet de 744 milliards de paramètres (40B actifs) dispose d'une fenêtre de contexte 200K et a été pré-entraîné sur 28,5T de tokens. Le modèle complet GLM-5 nécessite 1,65 To d'espace disque, tandis que le GGUF dynamique 2 bits Unsloth réduit la taille à 241 Go (-85%), et dynamique 1 bit est 176 Go (-89 %) : GLM-5-GGUF
Tous les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - ainsi le 1 bit a des couches importantes mises à niveau en 8 ou 16 bits. Merci à Z.ai d'avoir fourni à Unsloth un accès dès le jour zéro.
⚙️ Guide d'utilisation
La quantification dynamique 2 bits UD-IQ2_XXS utilise 241 Go d'espace disque - cela peut tenir directement sur un Mac à mémoire unifiée 256 Go, et fonctionne également bien sur un carte 1x24 Go et 256 Go de RAM avec déchargement MoE. La quantification 1 bit tiendra sur 180 Go de RAM et le 8 bits nécessite 805 Go de RAM.
Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (VRAM + RAM système) dépasse la taille du fichier du modèle quantifié que vous téléchargez. Si ce n'est pas le cas, llama.cpp peut toujours fonctionner via déchargement sur SSD/HDD, mais l'inférence sera plus lente.
Paramètres recommandés
Utilisez des paramètres distincts pour différents cas d'utilisation :
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
max new tokens = 131072
max new tokens = 16384
repeat penalty = désactivé ou 1.0
repeat penalty = désactivé ou 1.0
Min_P = 0.01(la valeur par défaut de llama.cpp est 0,05)Fenêtre de contexte maximale :
202,752.Pour les tâches multi-tours agentiques (τ²-Bench et Terminal Bench 2), veuillez activer le mode Pensée Préservée.
Exécuter les tutoriels GLM-5 :
✨ Exécuter dans llama.cpp
Obtenez le dernier llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de build ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement l'inférence CPU.
Si vous voulez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:IQ2_XXS) est le type de quantification. Vous pouvez également télécharger via Hugging Face (point 3). Ceci est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. N'oubliez pas que le modèle n'a qu'une longueur de contexte maximale de 200K.
Suivez ceci pour instruction générale cas d'utilisation :
Suivez ceci pour appel d'outil cas d'utilisation :
Téléchargez le modèle via (après installation de pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q2_K_XL (quant dynamique 2 bits) ou d'autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d'utiliser notre quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir Hugging Face Hub, débogage XET
Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement GPU sur combien de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le aussi si vous avez uniquement de l'inférence CPU.
🦙 Service Llama-server & bibliothèque de complétion d'OpenAI
Pour déployer GLM-5 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :
Puis dans un nouveau terminal, après avoir fait pip install openai, faites :
Et vous obtiendrez l'exemple suivant d'un jeu Snake :

💻 Déploiement vLLM
Vous pouvez désormais servir la version FP8 du modèle de Z.ai via vLLM. Vous avez besoin de 860 Go de VRAM ou plus, donc 8xH200 (141x8 = 1128 Go) est au minimum recommandé. 8xB200 fonctionne bien. Tout d'abord, installez vllm nightly :
Pour désactiver le KV Cache FP8 (réduit l'utilisation mémoire de 50 %), retirez --kv-cache-dtype fp8
Vous pouvez ensuite appeler le modèle servi via l'API OpenAI :
🔨Appel d'outils avec GLM 5
Voir Tool Calling Guide pour plus de détails sur la façon de faire des appels d'outils. Dans un nouveau terminal (si vous utilisez tmux, utilisez CTRL+B+D), nous créons quelques outils comme additionner 2 nombres, exécuter du code Python, exécuter des fonctions Linux et bien plus :
Nous utilisons ensuite les fonctions ci-dessous (copier-coller et exécuter) qui analyseront automatiquement les appels de fonctions et appelleront le point de terminaison OpenAI pour n'importe quel modèle :
Après avoir lancé GLM 5 via llama-server comme dans GLM-5 ou voir Tool Calling Guide pour plus de détails, nous pouvons alors effectuer certains appels d'outils.
📊 Références de performance
Vous pouvez voir ci-dessous d'autres benchmarks sous forme de tableau :

HLE
30.5
24.8
25.1
31.5
28.4
37.2
35.4
HLE (avec outils)
50.4
42.8
40.8
51.8
43.4*
45.8*
45.5*
AIME 2026 I
92.7
92.9
92.7
92.5
93.3
90.6
-
HMMT Nov. 2025
96.9
93.5
90.2
91.1
91.7
93.0
97.1
IMOAnswerBench
82.5
82.0
78.3
81.8
78.5
83.3
86.3
GPQA-Diamond
86.0
85.7
82.4
87.6
87.0
91.9
92.4
SWE-bench Vérifié
77.8
73.8
73.1
76.8
80.9
76.2
80.0
SWE-bench Multilingue
73.3
66.7
70.2
73.0
77.5
65.0
72.0
Terminal-Bench 2.0 (Terminus 2)
56,2 / 60,7 †
41.0
39.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0 (Claude Code)
56,2 / 61,1 †
32.8
46.4
-
57.9
-
-
CyberGym
43.2
23.5
17.3
41.3
50.6
39.9
-
BrowseComp
62.0
52.0
51.4
60.6
37.0
37.8
-
BrowseComp (avec gestion du contexte)
75.9
67.5
67.6
74.9
67.8
59.2
65.8
BrowseComp-Zh
72.7
66.6
65.0
62.3
62.4
66.8
76.1
τ²-Bench
89.7
87.4
85.3
80.2
91.6
90.7
85.5
MCP-Atlas (ensemble public)
67.8
52.0
62.2
63.8
65.2
66.6
68.0
Tool-Decathlon
38.0
23.8
35.2
27.8
43.5
36.4
46.3
Vending Bench 2
$4,432.12
$2,376.82
$1,034.00
$1,198.46
$4,967.06
$5,478.16
$3,591.33
Mis à jour
Ce contenu vous a-t-il été utile ?

