GLM-5: Anleitung zum lokalen Betrieb
Führe das neue GLM-5-Modell von Z.ai auf deinem eigenen lokalen Gerät aus!
GLM-5 ist Z.ais neuestes Reasoning-Modell und liefert stärkere Codier-, Agenten- und Chat-Leistung als GLM-4.7und ist für Reasoning über lange Kontexte ausgelegt. Es steigert die Leistung in Benchmarks wie Humanity's Last Exam auf 50,4 % (+7,6 %), BrowseComp auf 75,9 % (+8,4 %) und Terminal-Bench-2.0 auf 61,1 % (+28,3 %).
Das vollständige 744B-Parameter-Modell (40B aktiv) hat ein 200K-Kontext Fenster und wurde auf 28,5T Token vortrainiert. Das komplette GLM-5-Modell benötigt 1,65TB Festplattenspeicher, während das Unsloth Dynamic 2-bit GGUF die Größe auf 241GB (-85%)und dynamisches 1-Bit sind 176GB (-89%): GLM-5-GGUF
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung – daher werden bei 1-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Z.ai, dass sie Unsloth Tages-Null-Zugang gewährt haben.
⚙️ Nutzungsanleitung
Die 2-Bit-dynamische Quantisierung UD-IQ2_XXS verwendet 241GB an Festplattenspeicher – das passt direkt auf ein 256GB Unified-Memory Macund funktioniert auch gut in einem 1x24GB-Karte und 256GB RAM mit MoE-Offloading. Die 1-Bit Quantisierung passt in 180GB RAM und 8-Bit benötigt 805GB RAM.
Obwohl es nicht zwingend erforderlich ist, sollten Sie für die beste Leistung dafür sorgen, dass VRAM + RAM zusammen der Größe des Quant entsprechen, das Sie herunterladen. Falls nicht, funktioniert Festplatten-/SSD-Offloading mit llama.cpp, nur die Inferenz wird langsamer. Verwenden Sie außerdem --fit on in llama.cpp um die maximale GPU-Nutzung automatisch zu aktivieren!
Empfohlene Einstellungen
Verwende unterschiedliche Einstellungen für verschiedene Anwendungsfälle:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
max neue Tokens = 131072
max neue Tokens = 16384
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Min_P = 0.01(llama.cpps Standard ist 0.05)Maximales Kontextfenster:
202,752.Für mehrstufige agentische Aufgaben (τ²-Bench und Terminal Bench 2) aktiviere bitte den Preserved Thinking-Modus.
Führe GLM-5 Tutorials aus:
✨ In llama.cpp ausführen
Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Wenn Sie llama.cpp direkt zum Laden von Modellen kannst du Folgendes tun: (:IQ2_XXS) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, dass llama.cpp um an einem bestimmten Ort zu speichern. Denk daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.
Folge dem für allgemeine Instruktions- Anwendungsfälle:
Folge dem für Tool-Aufrufe Anwendungsfälle:
Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen UD-Q2_K_XL (dynamische 2-Bit-Quantisierung) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir wir empfehlen unsere 2-Bit-dynamische Quantisierung UD-Q2_K_XL um Größe und Genauigkeit auszugleichen.
Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
🦙 Llama-Server Bereitstellung & OpenAIs Completion-Bibliothek
Um GLM-5 für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell über:
Dann in einem neuen Terminal, nachdem Sie pip install openai, tun Sie:
Und du erhältst folgendes Beispiel eines Snake-Spiels:

💻 vLLM-Bereitstellung
Du kannst jetzt Z.ais FP8-Version des Modells über vLLM bereitstellen. Du brauchst 860GB VRAM oder mehr, daher werden mindestens 8xH200 (141x8 = 1128GB) empfohlen. 8xB200 funktioniert gut. Installiere zunächst vllm nightly:
Um den FP8 KV-Cache zu deaktivieren (reduziert den Speicherverbrauch um 50%), entferne --kv-cache-dtype fp8
Du kannst dann das bereitgestellte Modell über die OpenAI-API aufrufen:
🔨Tool-Aufrufe mit GLM 5
Siehe Tool Calling Guide für weitere Details zur Durchführung von Tool-Aufrufen. In einem neuen Terminal (wenn Sie tmux verwenden, drücken Sie STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:
Dann verwenden wir die unten stehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:
Nachdem GLM 5 gestartet wurde via llama-server wie in GLM-5 oder siehe Tool Calling Guide für weitere Details können wir dann einige Tool-Aufrufe machen.
📊 Benchmarks
Unten kannst du weitere Benchmarks in Tabellenform sehen:

HLE
30.5
24.8
25.1
31.5
28.4
37.2
35.4
HLE (mit Tools)
50.4
42.8
40.8
51.8
43.4*
45.8*
45.5*
AIME 2026 I
92.7
92.9
92.7
92.5
93.3
90.6
-
HMMT Nov. 2025
96.9
93.5
90.2
91.1
91.7
93.0
97.1
IMOAnswerBench
82.5
82.0
78.3
81.8
78.5
83.3
86.3
GPQA-Diamond
86.0
85.7
82.4
87.6
87.0
91.9
92.4
SWE-bench Verifiziert
77.8
73.8
73.1
76.8
80.9
76.2
80.0
SWE-bench Mehrsprachig
73.3
66.7
70.2
73.0
77.5
65.0
72.0
Terminal-Bench 2.0 (Terminus 2)
56,2 / 60,7 †
41.0
39.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0 (Claude Code)
56,2 / 61,1 †
32.8
46.4
-
57.9
-
-
CyberGym
43.2
23.5
17.3
41.3
50.6
39.9
-
BrowseComp
62.0
52.0
51.4
60.6
37.0
37.8
-
BrowseComp (mit Kontextverwaltung)
75.9
67.5
67.6
74.9
67.8
59.2
65.8
BrowseComp-Zh
72.7
66.6
65.0
62.3
62.4
66.8
76.1
τ²-Bench
89.7
87.4
85.3
80.2
91.6
90.7
85.5
MCP-Atlas (öffentliche Auswahl)
67.8
52.0
62.2
63.8
65.2
66.6
68.0
Tool-Decathlon
38.0
23.8
35.2
27.8
43.5
36.4
46.3
Vending Bench 2
$4,432.12
$2,376.82
$1,034.00
$1,198.46
$4,967.06
$5,478.16
$3,591.33
Zuletzt aktualisiert
War das hilfreich?

