GLM-5: Anleitung zum lokalen Betrieb
Führe das neue GLM-5-Modell von Z.ai auf deinem eigenen lokalen Gerät aus!
GLM-5 ist Z.ais neuestes Reasoning-Modell und liefert stärkere Leistungen beim Codieren, bei Agenten und im Chat als GLM-4.7und ist für langkontextuelles Schlussfolgern ausgelegt. Es verbessert die Leistung bei Benchmarks wie Humanity's Last Exam 50,4% (+7,6%), BrowseComp 75,9% (+8,4%) und Terminal-Bench-2.0 61,1% (+28,3%).
Das vollständige 744B-Parameter-Modell (40B aktiv) hat ein 200K-Kontext Fenster und wurde auf 28,5T Tokens vortrainiert. Das vollständige GLM-5-Modell benötigt 1,65TB Festplattenspeicher, während das Unsloth Dynamic 2-bit GGUF die Größe reduziert auf 241GB (-85%)und dynamisch 1-Bit ist 176GB (-89%): GLM-5-GGUF
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung - somit werden bei 1-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Z.ai, dass sie Unsloth Zugang ab Tag Null gewährt haben.
⚙️ Gebrauchsanleitung
Die 2-Bit-dynamische Quantisierung UD-IQ2_XXS verwendet 241GB an Festplattenspeicher - das passt direkt auf ein 256GB Unified Memory Macund funktioniert auch gut in einem 1x24GB-Karte und 256GB RAM mit MoE-Offloading. Die 1-Bit Quantisierung passt in 180GB RAM und 8-Bit benötigt 805GB RAM.
Für beste Leistung stellen Sie sicher, dass Ihr insgesamt verfügbarer Speicher (VRAM + Systemspeicher) die Größe der quantisierten Modell-Datei, die Sie herunterladen, übersteigt. Wenn dies nicht der Fall ist, kann llama.cpp weiterhin über SSD/HDD-Offloading laufen, aber die Inferenz wird langsamer sein.
Empfohlene Einstellungen
Verwenden Sie unterschiedliche Einstellungen für verschiedene Anwendungsfälle:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
max neue Tokens = 131072
max neue Tokens = 16384
repeat penalty = deaktiviert oder 1,0
repeat penalty = deaktiviert oder 1,0
Min_P = 0,01(llama.cpps Standard ist 0,05)Maximales Kontextfenster:
202,752.Für mehrturnige agentische Aufgaben (τ²-Bench und Terminal Bench 2) aktivieren Sie bitte den Preserved Thinking-Modus.
Führen Sie GLM-5 Tutorials aus:
✨ In llama.cpp ausführen
Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Wenn du llama.cpp direkt zum Laden von Modellen können Sie Folgendes tun: (:IQ2_XXS) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um llama.cpp um an einen bestimmten Ort zu speichern. Denken Sie daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.
Folgen Sie dem für allgemeine Anweisungs- Anwendungsfälle:
Folgen Sie dem für Tool-Aufrufe Anwendungsfälle:
Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen empfehlen die Verwendung unseres 2,7-Bit Dynamic Quant (dynamische 2-Bit-Quant.) oder andere quantisierte Versionen wie UD-Q4_K_XL Q4_K_XL empfehlen wir unsere 2-Bit-dynamische Quantisierung empfehlen die Verwendung unseres 2,7-Bit Dynamic Quant UD-Q2_K_XL. Falls Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging
--include "*UD-Q2_K_XL*" # Verwenden Sie "*UD-TQ1_0*" für Dynamic 1bit Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für Kontextlänge, --n-gpu-layers 2
🦙 Llama-Server Bereitstellung & OpenAIs Completion-Bibliothek
Um GLM-5 für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:
Dann in einem neuen Terminal, nachdem du pip install openai, mache:
Und Sie erhalten folgendes Beispiel für ein Snake-Spiel:

💻 vLLM-Bereitstellung
Sie können jetzt Z.ais FP8-Version des Modells über vLLM bereitstellen. Sie benötigen 860GB VRAM oder mehr, daher werden mindestens 8xH200 (141x8 = 1128GB) empfohlen. 8xB200 funktionieren gut. Installieren Sie zuerst vllm nightly:
Um den FP8 KV-Cache zu deaktivieren (reduziert den Speicherverbrauch um 50%), entfernen Sie --kv-cache-dtype fp8
Sie können das bereitgestellte Modell dann über die OpenAI-API aufrufen:
🔨Tool-Aufrufe mit GLM 5
Tool Calling mit GLM 4.7 Tool Calling Guide Siehe
"required": ["code"],
Nachdem GLM 5 gestartet wurde über llama-server llama-server GLM-5 wie in Tool Calling Guide für weitere Details können wir dann einige Tool-Aufrufe durchführen.
📊 Benchmarks
Weiter unten finden Sie Benchmarks in Tabellenform:

HLE
30.5
24.8
25.1
31.5
28.4
37.2
35.4
HLE (mit Tools)
50.4
42.8
40.8
51.8
43.4*
45.8*
45.5*
AIME 2026 I
92.7
92.9
92.7
92.5
93.3
90.6
-
HMMT Nov. 2025
96.9
93.5
90.2
91.1
91.7
93.0
97.1
IMOAnswerBench
82.5
82.0
78.3
81.8
78.5
83.3
86.3
GPQA-Diamond
86.0
85.7
82.4
87.6
87.0
91.9
92.4
SWE-bench Verifiziert
77.8
73.8
73.1
76.8
80.9
76.2
80.0
SWE-bench Mehrsprachig
73.3
66.7
70.2
73.0
77.5
65.0
72.0
Terminal-Bench 2.0 (Terminus 2)
56,2 / 60,7 †
41.0
39.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0 (Claude Code)
56,2 / 61,1 †
32.8
46.4
-
57.9
-
-
CyberGym
43.2
23.5
17.3
41.3
50.6
39.9
-
BrowseComp
62.0
52.0
51.4
60.6
37.0
37.8
-
BrowseComp (mit Kontextverwaltung)
75.9
67.5
67.6
74.9
67.8
59.2
65.8
BrowseComp-Zh
72.7
66.6
65.0
62.3
62.4
66.8
76.1
τ²-Bench
89.7
87.4
85.3
80.2
91.6
90.7
85.5
MCP-Atlas (öffentliche Menge)
67.8
52.0
62.2
63.8
65.2
66.6
68.0
Tool-Decathlon
38.0
23.8
35.2
27.8
43.5
36.4
46.3
Vending Bench 2
$4,432.12
$2,376.82
$1,034.00
$1,198.46
$4,967.06
$5,478.16
$3,591.33
Zuletzt aktualisiert
War das hilfreich?

