GLM-5 : Guide pour exécution locale
Exécutez le nouveau modèle GLM-5 de Z.ai sur votre propre appareil local !
GLM-5 est le dernier modèle de raisonnement de Z.ai, offrant de meilleures performances en codage, agents et chat que GLM-4.7, et est conçu pour le raisonnement sur de longs contextes. Il améliore les performances sur des benchmarks tels que Humanity's Last Exam 50,4 % (+7,6 %), BrowseComp 75,9 % (+8,4 %) et Terminal-Bench-2.0 61,1 % (+28,3 %).
Le modèle complet de 744 milliards de paramètres (40B actifs) possède une fenêtre de contexte de 200K et a été pré-entraîné sur 28,5T de tokens. Le modèle GLM-5 complet nécessite 1,65 To d'espace disque, tandis que le GGUF dynamique 2 bits Unsloth réduit la taille à 241 Go (-85%), et dynamique 1-bit est 176 Go (-89 %) : GLM-5-GGUF
Tous les téléchargements utilisent Unsloth méthodologie Dynamic 2.0 pour des performances de quantification SOTA - donc le 1-bit a des couches importantes surcastées en 8 ou 16 bits. Merci à Z.ai d'avoir fourni à Unsloth un accès dès le jour zéro.
⚙️ Guide d'utilisation
La quantification dynamique 2 bits UD-IQ2_XXS utilise 241 Go d'espace disque - cela peut tenir directement sur un Mac à mémoire unifiée 256 Go, et fonctionne également bien sur un 1x24 Go de carte et 256 Go de RAM avec déchargement MoE désactivé. Le quant 1-bit tiendra sur 180 Go de RAM et le 8-bit nécessite 805 Go de RAM.
Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (VRAM + RAM système) dépasse la taille du fichier du modèle quantifié que vous téléchargez. Si ce n'est pas le cas, llama.cpp peut toujours fonctionner via le déchargement SSD/HDD, mais l'inférence sera plus lente.
Paramètres recommandés
Utilisez des paramètres distincts pour différents cas d'utilisation :
température = 1.0
température = 0.7
top_p = 0.95
top_p = 1.0
max new tokens = 131072
max new tokens = 16384
repeat penalty = désactivé ou 1.0
repeat penalty = désactivé ou 1.0
Min_P = 0.01(la valeur par défaut de llama.cpp est 0,05)Fenêtre de contexte maximale :
202,752.Pour les tâches agentiques multi-tours (τ²-Bench et Terminal Bench 2), veuillez activer le mode Preserved Thinking.
Exécutez les tutoriels GLM-5 :
✨ Exécuter dans llama.cpp
Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.
Si vous voulez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:IQ2_XXS) est le type de quantification. Vous pouvez également télécharger via Hugging Face (point 3). Ceci est similaire à ollama run . Utilisez export LLAMA_CACHE="dossier" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. N'oubliez pas que le modèle n'a qu'une longueur de contexte maximale de 200K.
Suivez ceci pour cas d'utilisation d'instruction généraux :
Suivez ceci pour appel d'outils généraux :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q2_K_XL (quant 2 bits dynamique) ou d'autres versions quantifiées comme UD-Q4_K_XL . Nous nous recommandons d'utiliser notre quant dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir Hugging Face Hub, débogage XET
Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement sur GPU du nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous avez uniquement une inférence CPU.
🦙 Service Llama-server & bibliothèque de complétion d'OpenAI
Pour déployer GLM-5 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :
Puis dans un nouveau terminal, après avoir fait pip install openai, faites :
Et vous obtiendrez l'exemple suivant d'un jeu Snake :

💻 Déploiement vLLM
Vous pouvez maintenant servir la version FP8 du modèle de Z.ai via vLLM. Vous avez besoin de 860 Go de VRAM ou plus, donc 8xH200 (141x8 = 1128 Go) est au minimum recommandé. 8xB200 fonctionne bien. Tout d'abord, installez vllm nightly :
Pour désactiver le cache KV en FP8 (réduit l'utilisation mémoire de 50 %), retirez --kv-cache-dtype fp8
Vous pouvez ensuite appeler le modèle servi via l'API OpenAI :
🔨Appel d'outils avec GLM 5
Voir Tool Calling Guide pour plus de détails sur la manière de faire des appels d'outils. Dans un nouveau terminal (si vous utilisez tmux, utilisez CTRL+B+D), nous créons quelques outils comme l'addition de 2 nombres, l'exécution de code Python, l'exécution de fonctions Linux et bien plus :
Nous utilisons ensuite les fonctions ci-dessous (copier-coller et exécuter) qui analyseront automatiquement les appels de fonctions et appelleront le point de terminaison OpenAI pour n'importe quel modèle :
Après avoir lancé GLM 5 via llama-server comme dans GLM-5 ou voir Tool Calling Guide pour plus de détails, nous pouvons alors effectuer quelques appels d'outils.
📊 Benchmarks
Vous pouvez voir ci-dessous des benchmarks au format tableau :

HLE
30.5
24.8
25.1
31.5
28.4
37.2
35.4
HLE (avec outils)
50.4
42.8
40.8
51.8
43.4*
45.8*
45.5*
AIME 2026 I
92.7
92.9
92.7
92.5
93.3
90.6
-
HMMT Nov. 2025
96.9
93.5
90.2
91.1
91.7
93.0
97.1
IMOAnswerBench
82.5
82.0
78.3
81.8
78.5
83.3
86.3
GPQA-Diamond
86.0
85.7
82.4
87.6
87.0
91.9
92.4
SWE-bench Vérifié
77.8
73.8
73.1
76.8
80.9
76.2
80.0
SWE-bench Multilingue
73.3
66.7
70.2
73.0
77.5
65.0
72.0
Terminal-Bench 2.0 (Terminus 2)
56,2 / 60,7 †
41.0
39.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0 (Claude Code)
56,2 / 61,1 †
32.8
46.4
-
57.9
-
-
CyberGym
43.2
23.5
17.3
41.3
50.6
39.9
-
BrowseComp
62.0
52.0
51.4
60.6
37.0
37.8
-
BrowseComp (avec gestion du contexte)
75.9
67.5
67.6
74.9
67.8
59.2
65.8
BrowseComp-Zh
72.7
66.6
65.0
62.3
62.4
66.8
76.1
τ²-Bench
89.7
87.4
85.3
80.2
91.6
90.7
85.5
MCP-Atlas (ensemble public)
67.8
52.0
62.2
63.8
65.2
66.6
68.0
Tool-Decathlon
38.0
23.8
35.2
27.8
43.5
36.4
46.3
Vending Bench 2
$4,432.12
$2,376.82
$1,034.00
$1,198.46
$4,967.06
$5,478.16
$3,591.33
Mis à jour
Ce contenu vous a-t-il été utile ?

