zGLM-5: Anleitung zum lokalen Betrieb

Führe das neue GLM-5-Modell von Z.ai auf deinem eigenen lokalen Gerät aus!

GLM-5 ist Z.ais neuestes Reasoning-Modell und liefert stärkere Codier-, Agenten- und Chat-Leistung als GLM-4.7und ist für Reasoning über lange Kontexte ausgelegt. Es steigert die Leistung in Benchmarks wie Humanity's Last Exam auf 50,4 % (+7,6 %), BrowseComp auf 75,9 % (+8,4 %) und Terminal-Bench-2.0 auf 61,1 % (+28,3 %).

Das vollständige 744B-Parameter-Modell (40B aktiv) hat ein 200K-Kontext Fenster und wurde auf 28,5T Token vortrainiert. Das komplette GLM-5-Modell benötigt 1,65TB Festplattenspeicher, während das Unsloth Dynamic 2-bit GGUF die Größe auf 241GB (-85%)und dynamisches 1-Bit sind 176GB (-89%): GLM-5-GGUFarrow-up-right

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung – daher werden bei 1-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Z.ai, dass sie Unsloth Tages-Null-Zugang gewährt haben.

⚙️ Nutzungsanleitung

Die 2-Bit-dynamische Quantisierung UD-IQ2_XXS verwendet 241GB an Festplattenspeicher – das passt direkt auf ein 256GB Unified-Memory Macund funktioniert auch gut in einem 1x24GB-Karte und 256GB RAM mit MoE-Offloading. Die 1-Bit Quantisierung passt in 180GB RAM und 8-Bit benötigt 805GB RAM.

circle-check

Empfohlene Einstellungen

Verwende unterschiedliche Einstellungen für verschiedene Anwendungsfälle:

Standardeinstellungen (die meisten Aufgaben)
SWE Bench Verifiziert

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

max neue Tokens = 131072

max neue Tokens = 16384

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

  • Min_P = 0.01 (llama.cpps Standard ist 0.05)

  • Maximales Kontextfenster: 202,752.

  • Für mehrstufige agentische Aufgaben (τ²-Bench und Terminal Bench 2) aktiviere bitte den Preserved Thinking-Modus.

Führe GLM-5 Tutorials aus:

✨ In llama.cpp ausführen

1

Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

2

Wenn Sie llama.cpp direkt zum Laden von Modellen kannst du Folgendes tun: (:IQ2_XXS) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, dass llama.cpp um an einem bestimmten Ort zu speichern. Denk daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folge dem für allgemeine Instruktions- Anwendungsfälle:

Folge dem für Tool-Aufrufe Anwendungsfälle:

3

Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen UD-Q2_K_XL (dynamische 2-Bit-Quantisierung) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wir wir empfehlen unsere 2-Bit-dynamische Quantisierung UD-Q2_K_XL um Größe und Genauigkeit auszugleichen.

4

Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

🦙 Llama-Server Bereitstellung & OpenAIs Completion-Bibliothek

Um GLM-5 für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell über:

Dann in einem neuen Terminal, nachdem Sie pip install openai, tun Sie:

Und du erhältst folgendes Beispiel eines Snake-Spiels:

💻 vLLM-Bereitstellung

Du kannst jetzt Z.ais FP8-Version des Modells über vLLM bereitstellen. Du brauchst 860GB VRAM oder mehr, daher werden mindestens 8xH200 (141x8 = 1128GB) empfohlen. 8xB200 funktioniert gut. Installiere zunächst vllm nightly:

Um den FP8 KV-Cache zu deaktivieren (reduziert den Speicherverbrauch um 50%), entferne --kv-cache-dtype fp8

Du kannst dann das bereitgestellte Modell über die OpenAI-API aufrufen:

🔨Tool-Aufrufe mit GLM 5

Siehe Tool Calling Guide für weitere Details zur Durchführung von Tool-Aufrufen. In einem neuen Terminal (wenn Sie tmux verwenden, drücken Sie STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, Ausführen von Python-Code, Ausführen von Linux-Funktionen und vieles mehr:

Dann verwenden wir die unten stehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:

Nachdem GLM 5 gestartet wurde via llama-server wie in GLM-5 oder siehe Tool Calling Guide für weitere Details können wir dann einige Tool-Aufrufe machen.

📊 Benchmarks

Unten kannst du weitere Benchmarks in Tabellenform sehen:

Benchmark
GLM-5
GLM-4.7
DeepSeek-V3.2
Kimi K2.5
Claude Opus 4.5
Gemini 3 Pro
GPT-5.2 (xhigh)

HLE

30.5

24.8

25.1

31.5

28.4

37.2

35.4

HLE (mit Tools)

50.4

42.8

40.8

51.8

43.4*

45.8*

45.5*

AIME 2026 I

92.7

92.9

92.7

92.5

93.3

90.6

-

HMMT Nov. 2025

96.9

93.5

90.2

91.1

91.7

93.0

97.1

IMOAnswerBench

82.5

82.0

78.3

81.8

78.5

83.3

86.3

GPQA-Diamond

86.0

85.7

82.4

87.6

87.0

91.9

92.4

SWE-bench Verifiziert

77.8

73.8

73.1

76.8

80.9

76.2

80.0

SWE-bench Mehrsprachig

73.3

66.7

70.2

73.0

77.5

65.0

72.0

Terminal-Bench 2.0 (Terminus 2)

56,2 / 60,7 †

41.0

39.3

50.8

59.3

54.2

54.0

Terminal-Bench 2.0 (Claude Code)

56,2 / 61,1 †

32.8

46.4

-

57.9

-

-

CyberGym

43.2

23.5

17.3

41.3

50.6

39.9

-

BrowseComp

62.0

52.0

51.4

60.6

37.0

37.8

-

BrowseComp (mit Kontextverwaltung)

75.9

67.5

67.6

74.9

67.8

59.2

65.8

BrowseComp-Zh

72.7

66.6

65.0

62.3

62.4

66.8

76.1

τ²-Bench

89.7

87.4

85.3

80.2

91.6

90.7

85.5

MCP-Atlas (öffentliche Auswahl)

67.8

52.0

62.2

63.8

65.2

66.6

68.0

Tool-Decathlon

38.0

23.8

35.2

27.8

43.5

36.4

46.3

Vending Bench 2

$4,432.12

$2,376.82

$1,034.00

$1,198.46

$4,967.06

$5,478.16

$3,591.33

Zuletzt aktualisiert

War das hilfreich?