zGLM-5 : Guide d'exécution locale

Exécutez le nouveau modèle GLM-5 de Z.ai sur votre propre appareil local !

GLM-5 est le dernier modèle de raisonnement de Z.ai, offrant de meilleures performances en codage, agent et chat que GLM-4.7, et est conçu pour le raisonnement sur de longs contextes. Il augmente les performances sur des benchmarks tels que Humanity's Last Exam 50,4% (+7,6%), BrowseComp 75,9% (+8,4%) et Terminal-Bench-2.0 61,1% (+28,3%).

Le modèle complet de 744 milliards de paramètres (40B actifs) dispose d'une fenêtre de contexte de 200K et a été pré-entraîné sur 28,5T de tokens. Le modèle complet GLM-5 nécessite 1,65 To d'espace disque, tandis que le GGUF dynamique 2 bits Unsloth réduit la taille à 241 Go (-85%), et dynamique 1-bit est 176 Go (-89%) : GLM-5-GGUFarrow-up-right

Tous les téléversements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - donc 1-bit a des couches importantes suréchantillonnées en 8 ou 16 bits. Merci à Z.ai d’avoir fourni à Unsloth un accès dès le jour zéro.

⚙️ Guide d'utilisation

La quantification dynamique 2-bit UD-IQ2_XXS utilise 241 Go d'espace disque - cela peut se loger directement sur un Mac à mémoire unifiée 256 Go, et fonctionne également bien dans un 1x24Go carte et 256 Go de RAM avec déchargement MoE. Le quant 1-bit tiendra sur 180 Go de RAM et le 8-bit nécessite 805 Go de RAM.

circle-check

Paramètres recommandés

Utilisez des paramètres distincts pour différents cas d'utilisation :

Paramètres par défaut (la plupart des tâches)
SWE Bench Vérifié

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

max new tokens = 131072

max new tokens = 16384

repeat penalty = désactivé ou 1.0

repeat penalty = désactivé ou 1.0

  • Min_P = 0,01 (la valeur par défaut de llama.cpp est 0,05)

  • Fenêtre de contexte maximale : 202,752.

  • Pour les tâches agentiques multi-tours (τ²-Bench et Terminal Bench 2), veuillez activer le mode Pensée Préservée.

Exécutez les tutoriels GLM-5 :

✨ Exécuter dans llama.cpp

1

Obtenez le dernier llama.cpp sur GitHub iciarrow-up-right. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.

2

Si vous voulez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:IQ2_XXS) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer à un emplacement spécifique. Rappelez-vous que le modèle n’a qu’une longueur de contexte maximale de 200K.

Suivez ceci pour instruction générale cas d'utilisation :

Suivez ceci pour appel d'outils cas d'utilisation :

3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q2_K_XL (quant 2 bits dynamique) ou d'autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d'utiliser notre quant dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision.

4

Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement GPU sur le nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n'avez qu'une inférence CPU.

🦙 Service Llama-server & bibliothèque de complétion d'OpenAI

Pour déployer GLM-5 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

Puis, dans un nouveau terminal, après avoir fait pip install openai, faites :

Et vous obtiendrez l'exemple suivant d'un jeu Snake :

💻 Déploiement vLLM

Vous pouvez maintenant servir la version FP8 du modèle de Z.ai via vLLM. Vous avez besoin de 860 Go de VRAM ou plus, donc 8xH200 (141x8 = 1128 Go) est au minimum recommandé. 8xB200 fonctionne bien. Tout d'abord, installez la version nightly de vllm :

Pour désactiver le KV Cache FP8 (réduit l'utilisation mémoire de 50%), retirez --kv-cache-dtype fp8

Vous pouvez ensuite appeler le modèle servi via l'API OpenAI :

🔨Appel d'outils avec GLM 5

Voir Tool Calling Guide pour plus de détails sur la façon de faire des appels d'outil. Dans un nouveau terminal (si vous utilisez tmux, utilisez CTRL+B+D), nous créons quelques outils comme l'addition de 2 nombres, l'exécution de code Python, l'exécution de fonctions Linux et bien plus :

Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonctions et appelleront le point de terminaison OpenAI pour n'importe quel modèle :

Après le lancement de GLM 5 via llama-server comme dans GLM-5 ou voir Tool Calling Guide pour plus de détails, nous pouvons ensuite effectuer quelques appels d'outils.

📊 Benchmarks

Vous pouvez voir ci-dessous des benchmarks au format tableau :

Benchmark
GLM-5
GLM-4.7
DeepSeek-V3.2
Kimi K2.5
Claude Opus 4.5
Gemini 3 Pro
GPT-5.2 (xhigh)

HLE

30.5

24.8

25.1

31.5

28.4

37.2

35.4

HLE (avec outils)

50.4

42.8

40.8

51.8

43.4*

45.8*

45.5*

AIME 2026 I

92.7

92.9

92.7

92.5

93.3

90.6

-

HMMT Nov. 2025

96.9

93.5

90.2

91.1

91.7

93.0

97.1

IMOAnswerBench

82.5

82.0

78.3

81.8

78.5

83.3

86.3

GPQA-Diamond

86.0

85.7

82.4

87.6

87.0

91.9

92.4

SWE-bench Vérifié

77.8

73.8

73.1

76.8

80.9

76.2

80.0

SWE-bench Multilingue

73.3

66.7

70.2

73.0

77.5

65.0

72.0

Terminal-Bench 2.0 (Terminus 2)

56,2 / 60,7 †

41.0

39.3

50.8

59.3

54.2

54.0

Terminal-Bench 2.0 (Claude Code)

56,2 / 61,1 †

32.8

46.4

-

57.9

-

-

CyberGym

43.2

23.5

17.3

41.3

50.6

39.9

-

BrowseComp

62.0

52.0

51.4

60.6

37.0

37.8

-

BrowseComp (avec gestion du contexte)

75.9

67.5

67.6

74.9

67.8

59.2

65.8

BrowseComp-Zh

72.7

66.6

65.0

62.3

62.4

66.8

76.1

τ²-Bench

89.7

87.4

85.3

80.2

91.6

90.7

85.5

MCP-Atlas (ensemble public)

67.8

52.0

62.2

63.8

65.2

66.6

68.0

Tool-Decathlon

38.0

23.8

35.2

27.8

43.5

36.4

46.3

Vending Bench 2

$4,432.12

$2,376.82

$1,034.00

$1,198.46

$4,967.06

$5,478.16

$3,591.33

Mis à jour

Ce contenu vous a-t-il été utile ?