zGLM-5: Anleitung zum lokalen Betrieb

Führe das neue GLM-5-Modell von Z.ai auf deinem eigenen lokalen Gerät aus!

GLM-5 ist Z.ais neuestes Reasoning-Modell und liefert stärkere Leistungen beim Codieren, bei Agenten und im Chat als GLM-4.7und ist für langkontextuelles Schlussfolgern ausgelegt. Es verbessert die Leistung bei Benchmarks wie Humanity's Last Exam 50,4% (+7,6%), BrowseComp 75,9% (+8,4%) und Terminal-Bench-2.0 61,1% (+28,3%).

Das vollständige 744B-Parameter-Modell (40B aktiv) hat ein 200K-Kontext Fenster und wurde auf 28,5T Tokens vortrainiert. Das vollständige GLM-5-Modell benötigt 1,65TB Festplattenspeicher, während das Unsloth Dynamic 2-bit GGUF die Größe reduziert auf 241GB (-85%)und dynamisch 1-Bit ist 176GB (-89%): GLM-5-GGUFarrow-up-right

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung - somit werden bei 1-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Danke an Z.ai, dass sie Unsloth Zugang ab Tag Null gewährt haben.

⚙️ Gebrauchsanleitung

Die 2-Bit-dynamische Quantisierung UD-IQ2_XXS verwendet 241GB an Festplattenspeicher - das passt direkt auf ein 256GB Unified Memory Macund funktioniert auch gut in einem 1x24GB-Karte und 256GB RAM mit MoE-Offloading. Die 1-Bit Quantisierung passt in 180GB RAM und 8-Bit benötigt 805GB RAM.

circle-check

Empfohlene Einstellungen

Verwenden Sie unterschiedliche Einstellungen für verschiedene Anwendungsfälle:

Standardeinstellungen (die meisten Aufgaben)
SWE Bench Verifiziert

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

max neue Tokens = 131072

max neue Tokens = 16384

repeat penalty = deaktiviert oder 1,0

repeat penalty = deaktiviert oder 1,0

  • Min_P = 0,01 (llama.cpps Standard ist 0,05)

  • Maximales Kontextfenster: 202,752.

  • Für mehrturnige agentische Aufgaben (τ²-Bench und Terminal Bench 2) aktivieren Sie bitte den Preserved Thinking-Modus.

Führen Sie GLM-5 Tutorials aus:

✨ In llama.cpp ausführen

1

Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2

Wenn du llama.cpp direkt zum Laden von Modellen können Sie Folgendes tun: (:IQ2_XXS) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um llama.cpp um an einen bestimmten Ort zu speichern. Denken Sie daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folgen Sie dem für allgemeine Anweisungs- Anwendungsfälle:

Folgen Sie dem für Tool-Aufrufe Anwendungsfälle:

3

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen empfehlen die Verwendung unseres 2,7-Bit Dynamic Quant (dynamische 2-Bit-Quant.) oder andere quantisierte Versionen wie UD-Q4_K_XL Q4_K_XL empfehlen wir unsere 2-Bit-dynamische Quantisierung empfehlen die Verwendung unseres 2,7-Bit Dynamic Quant UD-Q2_K_XL. Falls Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

4

--include "*UD-Q2_K_XL*" # Verwenden Sie "*UD-TQ1_0*" für Dynamic 1bit Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für Kontextlänge, --n-gpu-layers 2

🦙 Llama-Server Bereitstellung & OpenAIs Completion-Bibliothek

Um GLM-5 für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:

Dann in einem neuen Terminal, nachdem du pip install openai, mache:

Und Sie erhalten folgendes Beispiel für ein Snake-Spiel:

💻 vLLM-Bereitstellung

Sie können jetzt Z.ais FP8-Version des Modells über vLLM bereitstellen. Sie benötigen 860GB VRAM oder mehr, daher werden mindestens 8xH200 (141x8 = 1128GB) empfohlen. 8xB200 funktionieren gut. Installieren Sie zuerst vllm nightly:

Um den FP8 KV-Cache zu deaktivieren (reduziert den Speicherverbrauch um 50%), entfernen Sie --kv-cache-dtype fp8

Sie können das bereitgestellte Modell dann über die OpenAI-API aufrufen:

🔨Tool-Aufrufe mit GLM 5

Tool Calling mit GLM 4.7 Tool Calling Guide Siehe

"required": ["code"],

Nachdem GLM 5 gestartet wurde über llama-server llama-server GLM-5 wie in Tool Calling Guide für weitere Details können wir dann einige Tool-Aufrufe durchführen.

📊 Benchmarks

Weiter unten finden Sie Benchmarks in Tabellenform:

Benchmark
GLM-5
GLM-4.7
DeepSeek-V3.2
Kimi K2.5
Claude Opus 4.5
Gemini 3 Pro
GPT-5.2 (xhigh)

HLE

30.5

24.8

25.1

31.5

28.4

37.2

35.4

HLE (mit Tools)

50.4

42.8

40.8

51.8

43.4*

45.8*

45.5*

AIME 2026 I

92.7

92.9

92.7

92.5

93.3

90.6

-

HMMT Nov. 2025

96.9

93.5

90.2

91.1

91.7

93.0

97.1

IMOAnswerBench

82.5

82.0

78.3

81.8

78.5

83.3

86.3

GPQA-Diamond

86.0

85.7

82.4

87.6

87.0

91.9

92.4

SWE-bench Verifiziert

77.8

73.8

73.1

76.8

80.9

76.2

80.0

SWE-bench Mehrsprachig

73.3

66.7

70.2

73.0

77.5

65.0

72.0

Terminal-Bench 2.0 (Terminus 2)

56,2 / 60,7 †

41.0

39.3

50.8

59.3

54.2

54.0

Terminal-Bench 2.0 (Claude Code)

56,2 / 61,1 †

32.8

46.4

-

57.9

-

-

CyberGym

43.2

23.5

17.3

41.3

50.6

39.9

-

BrowseComp

62.0

52.0

51.4

60.6

37.0

37.8

-

BrowseComp (mit Kontextverwaltung)

75.9

67.5

67.6

74.9

67.8

59.2

65.8

BrowseComp-Zh

72.7

66.6

65.0

62.3

62.4

66.8

76.1

τ²-Bench

89.7

87.4

85.3

80.2

91.6

90.7

85.5

MCP-Atlas (öffentliche Menge)

67.8

52.0

62.2

63.8

65.2

66.6

68.0

Tool-Decathlon

38.0

23.8

35.2

27.8

43.5

36.4

46.3

Vending Bench 2

$4,432.12

$2,376.82

$1,034.00

$1,198.46

$4,967.06

$5,478.16

$3,591.33

Zuletzt aktualisiert

War das hilfreich?