zGLM-4.7-Flash: So führst du es lokal aus

Führe und feinabstimme GLM-4.7-Flash lokal auf deinem Gerät!

GLM-4.7-Flash ist Z.ais neues 30B-MoE-Reasoning-Modell für den lokalen Einsatz und liefert erstklassige Leistung für Coding, agentische Workflows und Chat. Es verwendet ~3,6B Parameter, unterstützt 200K Kontext und führt bei den Benchmarks SWE-Bench, GPQA und Reasoning/Chat.

GLM-4.7-Flash läuft mit 24 GB RAM/VRAM/vereinheitlichtem Speicher (32 GB für volle Präzision), und Sie können jetzt mit Unsloth feinabstimmen. Um GLM 4.7 Flash mit vLLM auszuführen, siehe GLM-4.7-Flash in vLLM

circle-check

AusführungstutorialFine-Tuning

GLM-4.7-Flash GGUF zum Ausführen: unsloth/GLM-4.7-Flash-GGUFarrow-up-right

⚙️ Verwendungsleitfaden

Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + Systemspeicher) die Größe der quantisierten Modelldatei übersteigt, die du herunterlädst. Wenn nicht, kann llama.cpp weiterhin per SSD/HDD-Offloading ausgeführt werden, aber die Inferenz wird langsamer sein.

Nach Rücksprache mit dem Team von Z.ai empfehlen sie, ihre Sampling-Parameter für GLM-4.7 zu verwenden:

Standardeinstellungen (meiste Aufgaben)
Terminal Bench, SWE Bench Verified

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

  • Für allgemeine Anwendungsfälle: --temp 1.0 --top-p 0.95

  • Für Tool-Aufrufe: --temp 0.7 --top-p 1.0

  • Wenn Sie llama.cpp verwenden, setzen Sie --min-p 0.01 da der Standardwert von llama.cpp 0.05 ist

  • Manchmal müssen Sie ausprobieren, welche Zahlen für Ihren Anwendungsfall am besten funktionieren.

circle-exclamation
  • Maximales Kontextfenster: 202,752

🖥️ GLM-4.7-Flash ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs landen in ähnlicher Größe, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.

Da diese Anleitung 4-Bit verwendet, benötigen Sie etwa 18 GB RAM/vereinheitlichten Speicher. Wir empfehlen, mindestens 4-Bit-Präzision für die beste Leistung zu verwenden.

circle-exclamation

Llama.cpp-Tutorial (GGUF):

Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden werden, um auf die meisten Geräte zu passen):

1

Beschaffe die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

2

Sie können direkt von Hugging Face laden. Sie können den Kontext auf 200K erhöhen, sofern Ihr RAM/VRAM dies zulässt.

Sie können auch die von Z.ai empfohlenen Sampling-Parameter für GLM-4.7 ausprobieren:

  • Für allgemeine Anwendungsfälle: --temp 1.0 --top-p 0.95

  • Für Tool-Aufrufe: --temp 0.7 --top-p 1.0

  • Denken Sie daran, die Wiederholungsstrafe zu deaktivieren!

Folge dies für allgemeine Instruktions- Anwendungsfälle:

Folge dies für Tool-Aufrufe Anwendungsfälle:

3

Lade das Modell über (nach Installation von pip install huggingface_hub). Du kannst UD-Q4_K_XL oder andere quantisierte Versionen. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

4

Dann führe das Modell im Gesprächsmodus aus:

Passen Sie außerdem das Kontextfenster wie erforderlich, bis zu 202752

Wiederholungen und Schleifen reduzieren

circle-check

Das bedeutet, dass Sie jetzt die von Z.ai empfohlenen Parameter verwenden und großartige Ergebnisse erzielen können:

  • Für allgemeine Anwendungsfälle: --temp 1.0 --top-p 0.95

  • Für Tool-Aufrufe: --temp 0.7 --top-p 1.0

  • Wenn Sie llama.cpp verwenden, setzen Sie --min-p 0.01 da der Standardwert von llama.cpp 0.05 ist

  • Denken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie --repeat-penalty 1.0

Wir haben "scoring_func": "sigmoid" zu config.json für das Hauptmodell hinzugefügt - siehearrow-up-right.

circle-exclamation

🐦Flappy-Bird-Beispiel mit UD-Q4_K_XL

Als Beispiel haben wir den folgenden langen Dialog erstellt, indem wir UD-Q4_K_XL verwendet haben über ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :

was das folgende Flappy-Bird-Spiel in HTML-Form gerendert hat:

chevron-rightFlappy-Bird-Spiel in HTML (erweiterbar)hashtag

Und wir haben einige Screenshots gemacht (4bit funktioniert):

🦥 GLM-4.7-Flash feinabstimmen

Unsloth unterstützt jetzt die Feinabstimmung von GLM-4.7-Flash, allerdings müssen Sie transformers v5. Das 30B-Modell passt nicht auf eine kostenlose Colab-GPU; Sie können jedoch unser Notebook verwenden. Eine 16-Bit-LoRA-Feinabstimmung von GLM-4.7-Flash verwendet etwa 60 GB VRAM:

circle-exclamation

Beim Feinabstimmen von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht fein abzustimmen, daher haben wir sie standardmäßig deaktiviert. Wenn Sie die Reasoning-Fähigkeiten beibehalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens 75 % Reasoning und 25 % Non-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten beibehält.

🦙 Llama-Server-Bereitstellung & Deployment

Um GLM-4.7-Flash produktiv bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:

Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast:

Das wird ausgeben

💻 GLM-4.7-Flash in vLLM

Du kannst jetzt unser neues FP8 Dynamic Quantarrow-up-right des Modells für Premium- und schnelle Inferenz. Installieren Sie zuerst vLLM aus dem Nightly-Build:

Dann bereitstellen Unsloths dynamische FP8-Versionarrow-up-right des Modells. Wir haben FP8 aktiviert, um die Speichernutzung des KV-Cache um 50 % zu reduzieren, und zwar auf 4 GPUs. Wenn Sie 1 GPU haben, verwenden Sie CUDA_VISIBLE_DEVICES='0' und setze --tensor-parallel-size 1 oder entfernen Sie dieses Argument. Um FP8 zu deaktivieren, entfernen Sie --quantization fp8 --kv-cache-dtype fp8

Sie können das bereitgestellte Modell dann über die OpenAI-API aufrufen:

vLLM GLM-4.7-Flash Spekulatives Decoding

Wir haben festgestellt, dass die Verwendung des MTP-Moduls (multi token prediction) von GLM 4.7 Flash den Generierungsdurchsatz von 13.000 Tokens auf 1 B200 auf 1.300 Tokens senkt! (10x langsamer) Auf Hopper sollte es hoffentlich in Ordnung sein.

Nur 1.300 Tokens/s Durchsatz auf 1xB200 (130 Tokens/s Decoding pro Nutzer)

Und 13.000 Tokens/s Durchsatz auf 1xB200 (immer noch 130 Tokens/s Decoding pro Nutzer)

🔨Tool-Aufrufe mit GLM-4.7-Flash

Siehe Tool Calling Guide für weitere Details dazu, wie man Tool-Calling durchführt. In einem neuen Terminal (wenn Sie tmux verwenden, nutzen Sie STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:

Wir verwenden dann die folgenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch analysieren und für jedes Modell den OpenAI-Endpunkt aufrufen:

Nach dem Start von GLM-4.7-Flash über llama-server wie in GLM-4.7-Flash oder siehe Tool Calling Guide für weitere Details können wir dann einige Tool-Aufrufe durchführen:

Tool-Aufruf für mathematische Operationen für GLM 4.7

Tool-Aufruf zum Ausführen von generiertem Python-Code für GLM-4.7-Flash

Benchmarks

GLM-4.7-Flash ist das leistungsstärkste 30B-Modell über alle Benchmarks hinweg, außer AIME 25.

Benchmark
GLM-4.7-Flash
Qwen3-30B-A3B-Thinking-2507
GPT-OSS-20B

AIME 25

91.6

85.0

91.7

GPQA

75.2

73.4

71.5

LCB v6

64.0

66.0

61.0

HLE

14.4

9.8

10.9

SWE-bench Verified

59.2

22.0

34.0

τ²-Bench

79.5

49.0

47.7

BrowseComp

42.8

2.29

28.3

Zuletzt aktualisiert

War das hilfreich?