GLM-5 : Guide d'exécution locale
Exécutez le nouveau modèle GLM-5 de Z.ai sur votre propre appareil local !
GLM-5 est le dernier modèle de raisonnement de Z.ai, offrant de meilleures performances en codage, agent et chat que GLM-4.7, et est conçu pour le raisonnement sur de longs contextes. Il augmente les performances sur des benchmarks tels que Humanity's Last Exam 50,4% (+7,6%), BrowseComp 75,9% (+8,4%) et Terminal-Bench-2.0 61,1% (+28,3%).
Le modèle complet de 744 milliards de paramètres (40B actifs) dispose d'une fenêtre de contexte de 200K et a été pré-entraîné sur 28,5T de tokens. Le modèle complet GLM-5 nécessite 1,65 To d'espace disque, tandis que le GGUF dynamique 2 bits Unsloth réduit la taille à 241 Go (-85%), et dynamique 1-bit est 176 Go (-89%) : GLM-5-GGUF
Tous les téléversements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - donc 1-bit a des couches importantes suréchantillonnées en 8 ou 16 bits. Merci à Z.ai d’avoir fourni à Unsloth un accès dès le jour zéro.
⚙️ Guide d'utilisation
La quantification dynamique 2-bit UD-IQ2_XXS utilise 241 Go d'espace disque - cela peut se loger directement sur un Mac à mémoire unifiée 256 Go, et fonctionne également bien dans un 1x24Go carte et 256 Go de RAM avec déchargement MoE. Le quant 1-bit tiendra sur 180 Go de RAM et le 8-bit nécessite 805 Go de RAM.
Bien que ce ne soit pas indispensable, pour de meilleures performances, faites en sorte que votre VRAM + RAM combinées soient égales à la taille du quant que vous téléchargez. Sinon, le déchargement sur disque dur / SSD fonctionnera avec llama.cpp, mais l'inférence sera plus lente. Utilisez aussi --fit on dans llama.cpp pour activer automatiquement l'utilisation maximale du GPU !
Paramètres recommandés
Utilisez des paramètres distincts pour différents cas d'utilisation :
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
max new tokens = 131072
max new tokens = 16384
repeat penalty = désactivé ou 1.0
repeat penalty = désactivé ou 1.0
Min_P = 0,01(la valeur par défaut de llama.cpp est 0,05)Fenêtre de contexte maximale :
202,752.Pour les tâches agentiques multi-tours (τ²-Bench et Terminal Bench 2), veuillez activer le mode Pensée Préservée.
Exécutez les tutoriels GLM-5 :
✨ Exécuter dans llama.cpp
Obtenez le dernier llama.cpp sur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Si vous voulez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:IQ2_XXS) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. Rappelez-vous que le modèle n’a qu’une longueur de contexte maximale de 200K.
Suivez ceci pour instruction générale cas d'utilisation :
Suivez ceci pour appel d'outils cas d'utilisation :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q2_K_XL (quant 2 bits dynamique) ou d'autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d'utiliser notre quant dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision.
Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement GPU sur le nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n'avez qu'une inférence CPU.
🦙 Service Llama-server & bibliothèque de complétion d'OpenAI
Pour déployer GLM-5 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :
Puis, dans un nouveau terminal, après avoir fait pip install openai, faites :
Et vous obtiendrez l'exemple suivant d'un jeu Snake :

💻 Déploiement vLLM
Vous pouvez maintenant servir la version FP8 du modèle de Z.ai via vLLM. Vous avez besoin de 860 Go de VRAM ou plus, donc 8xH200 (141x8 = 1128 Go) est au minimum recommandé. 8xB200 fonctionne bien. Tout d'abord, installez la version nightly de vllm :
Pour désactiver le KV Cache FP8 (réduit l'utilisation mémoire de 50%), retirez --kv-cache-dtype fp8
Vous pouvez ensuite appeler le modèle servi via l'API OpenAI :
🔨Appel d'outils avec GLM 5
Voir Tool Calling Guide pour plus de détails sur la façon de faire des appels d'outil. Dans un nouveau terminal (si vous utilisez tmux, utilisez CTRL+B+D), nous créons quelques outils comme l'addition de 2 nombres, l'exécution de code Python, l'exécution de fonctions Linux et bien plus :
Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonctions et appelleront le point de terminaison OpenAI pour n'importe quel modèle :
Après le lancement de GLM 5 via llama-server comme dans GLM-5 ou voir Tool Calling Guide pour plus de détails, nous pouvons ensuite effectuer quelques appels d'outils.
📊 Benchmarks
Vous pouvez voir ci-dessous des benchmarks au format tableau :

HLE
30.5
24.8
25.1
31.5
28.4
37.2
35.4
HLE (avec outils)
50.4
42.8
40.8
51.8
43.4*
45.8*
45.5*
AIME 2026 I
92.7
92.9
92.7
92.5
93.3
90.6
-
HMMT Nov. 2025
96.9
93.5
90.2
91.1
91.7
93.0
97.1
IMOAnswerBench
82.5
82.0
78.3
81.8
78.5
83.3
86.3
GPQA-Diamond
86.0
85.7
82.4
87.6
87.0
91.9
92.4
SWE-bench Vérifié
77.8
73.8
73.1
76.8
80.9
76.2
80.0
SWE-bench Multilingue
73.3
66.7
70.2
73.0
77.5
65.0
72.0
Terminal-Bench 2.0 (Terminus 2)
56,2 / 60,7 †
41.0
39.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0 (Claude Code)
56,2 / 61,1 †
32.8
46.4
-
57.9
-
-
CyberGym
43.2
23.5
17.3
41.3
50.6
39.9
-
BrowseComp
62.0
52.0
51.4
60.6
37.0
37.8
-
BrowseComp (avec gestion du contexte)
75.9
67.5
67.6
74.9
67.8
59.2
65.8
BrowseComp-Zh
72.7
66.6
65.0
62.3
62.4
66.8
76.1
τ²-Bench
89.7
87.4
85.3
80.2
91.6
90.7
85.5
MCP-Atlas (ensemble public)
67.8
52.0
62.2
63.8
65.2
66.6
68.0
Tool-Decathlon
38.0
23.8
35.2
27.8
43.5
36.4
46.3
Vending Bench 2
$4,432.12
$2,376.82
$1,034.00
$1,198.46
$4,967.06
$5,478.16
$3,591.33
Mis à jour
Ce contenu vous a-t-il été utile ?

