zGLM-4.7-Flash: Anleitung zum lokalen Betrieb

Führe & feinabstimme GLM-4.7-Flash lokal auf deinem Gerät!

GLM-4.7-Flash ist Z.ai's neues 30B MoE-Reasoning-Modell für lokale Bereitstellung und bietet erstklassige Leistung für Programmierung, agentenbasierte Workflows und Chat. Es verwendet ~3,6B Parameter, unterstützt 200K Kontext und führt bei SWE-Bench, GPQA sowie Reasoning-/Chat-Benchmarks.

GLM-4.7-Flash läuft auf 24GB RAM/VRAM/unified Memory (32GB für volle Genauigkeit), und Sie können jetzt mit Unsloth feinabstimmen. Um GLM 4.7 Flash mit vLLM auszuführen, siehe GLM-4.7-Flash in vLLM

circle-check

Tutorial zur AusführungFeinabstimmung

GLM-4.7-Flash GGUF zum Ausführen: unsloth/GLM-4.7-Flash-GGUFarrow-up-right

⚙️ Gebrauchsanleitung

Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + System-RAM) größer ist als die Größe der quantisierten Modelldatei, die du herunterlädst. Wenn dies nicht der Fall ist, kann llama.cpp immer noch über SSD/HDD-Offloading laufen, aber die Inferenz wird langsamer sein.

Nach Rücksprache mit dem Z.ai-Team empfehlen sie, die folgenden GLM-4.7-Sampling-Parameter zu verwenden:

Standardeinstellungen (die meisten Aufgaben)
Terminal Bench, SWE Bench verifiziert

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

repeat penalty = deaktiviert oder 1.0

repeat penalty = deaktiviert oder 1.0

  • Für allgemeine Anwendungsfälle: --temp 1.0 --top-p 0.95

  • Für Tool-Aufrufe: --temp 0.7 --top-p 1.0

  • Wenn Sie llama.cpp verwenden, setzen Sie --min-p 0.01 da llama.cpp standardmäßig 0.05 hat

  • Manchmal müssen Sie experimentieren, welche Zahlen am besten für Ihren Anwendungsfall funktionieren.

circle-exclamation
  • Maximales Kontextfenster: 202,752

🖥️ GLM-4.7-Flash ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs sind schließlich ähnlich groß, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bitbreiten quantisiert werden können.

Weil diese Anleitung 4-Bit verwendet, benötigen Sie etwa 18GB RAM/unified Memory. Wir empfehlen mindestens 4-Bit-Präzision für beste Leistung.

circle-exclamation

Llama.cpp Tutorial (GGUF):

Anweisungen zum Ausführen in llama.cpp (Hinweis: wir verwenden 4-Bit, um auf die meisten Geräte zu passen):

1

Holen Sie sich das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder einfach nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2

Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 200K erhöhen, je nachdem, wie Ihr RAM/VRAM es zulässt.

Sie können auch Z.ai's empfohlene GLM-4.7-Sampling-Parameter ausprobieren:

  • Für allgemeine Anwendungsfälle: --temp 1.0 --top-p 0.95

  • Für Tool-Aufrufe: --temp 0.7 --top-p 1.0

  • Denken Sie daran, die Wiederholungsstrafe zu deaktivieren!

Folge dem für allgemeine Anweisung Anwendungsfälle:

Folge dem für tool-calling Anwendungsfälle:

3

Laden Sie das Modell über (nach Installation von pip install huggingface_hub). Sie können UD-Q4_K_XL oder andere quantisierte Versionen. Falls Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

4

Dann das Modell im Konversationsmodus ausführen:

Passen Sie außerdem Kontextfenster wie benötigt an, bis zu 202752

Wiederholungen und Schleifen reduzieren

circle-check

Das bedeutet, Sie können jetzt Z.ai's empfohlene Parameter verwenden und großartige Ergebnisse erzielen:

  • Für allgemeine Anwendungsfälle: --temp 1.0 --top-p 0.95

  • Für Tool-Aufrufe: --temp 0.7 --top-p 1.0

  • Wenn Sie llama.cpp verwenden, setzen Sie --min-p 0.01 da llama.cpp standardmäßig 0.05 hat

  • Denken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie --repeat-penalty 1.0

Wir haben hinzugefügt "scoring_func": "sigmoid" zu config.json für das Hauptmodell - siehearrow-up-right.

circle-exclamation

🐦Flappy Bird Beispiel mit UD-Q4_K_XL

Als Beispiel führten wir das folgende lange Gespräch, indem wir UD-Q4_K_XL über ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :

was das folgende Flappy Bird Spiel in HTML-Form rendert:

chevron-rightFlappy Bird Spiel in HTML (erweiterbar)hashtag

Und wir haben einige Screenshots gemacht (4bit funktioniert):

🦥 Feinabstimmung von GLM-4.7-Flash

Unsloth unterstützt jetzt die Feinabstimmung von GLM-4.7-Flash, allerdings müssen Sie transformers v5verwenden. Das 30B-Modell passt nicht auf eine kostenlose Colab-GPU; Sie können jedoch unser Notebook verwenden. 16-Bit LoRA-Feinabstimmung von GLM-4.7-Flash verwendet etwa 60GB VRAM:

circle-exclamation

Beim Feinabstimmen von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht feinabzustimmen, daher haben wir sie standardmäßig deaktiviert. Wenn Sie seine Reasoning-Fähigkeiten beibehalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens 75% Reasoning und 25% Nicht-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.

🦙 Llama-Server Bereitstellung & Deployment

Um GLM-4.7-Flash für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, das Modell wie folgt bereitstellen:

Dann in einem neuen Terminal, nachdem Sie pip install openaiausgeführt hast, mache:

Was ausgibt

💻 GLM-4.7-Flash in vLLM

Sie können jetzt unser neues FP8 dynamische Quantisierungarrow-up-right des Modells für premium und schnelle Inferenz. Installieren Sie zuerst vLLM aus dem Nightly-Build:

Dann starten Sie den Dienst Unsloths dynamische FP8-Versionarrow-up-right des Modells. Wir haben FP8 aktiviert, um die KV-Cache-Speichernutzung um 50 % zu reduzieren, und auf 4 GPUs. Wenn Sie 1 GPU haben, verwenden Sie CUDA_VISIBLE_DEVICES='0' und setzen Sie --tensor-parallel-size 1 oder entfernen Sie dieses Argument. Um FP8 zu deaktivieren, entfernen Sie --quantization fp8 --kv-cache-dtype fp8

Sie können dann das bereitgestellte Modell über die OpenAI-API aufrufen:

vLLM GLM-4.7-Flash Spekulatives Decoding

Wir haben festgestellt, dass die Verwendung des MTP-(Multi Token Prediction)-Moduls von GLM 4.7 Flash den Generierungsdurchsatz von 13.000 Tokens auf 1 B200 auf 1.300 Tokens reduziert! (10x langsamer) Auf Hopper sollte es hoffentlich in Ordnung sein.

Nur 1.300 Tokens/s Durchsatz auf 1xB200 (130 Tokens/s Decoding pro Nutzer)

Und 13.000 Tokens/s Durchsatz auf 1xB200 (immer noch 130 Tokens/s Decoding pro Nutzer)

🔨Toolaufrufe mit GLM-4.7-Flash

Siehe Tool Calling Guide für weitere Details, wie man Toolaufrufe macht. In einem neuen Terminal (bei Verwendung von tmux drücken Sie STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:

Anschließend verwenden wir die untenstehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:

Nachdem GLM-4.7-Flash gestartet wurde über llama-server wie in GLM-4.7-Flash oder siehe Tool Calling Guide für weitere Details, können wir dann einige Toolaufrufe durchführen:

Toolaufruf für mathematische Operationen für GLM 4.7

Toolaufruf zum Ausführen generierten Python-Codes für GLM-4.7-Flash

Benchmarks

GLM-4.7-Flash ist das leistungsstärkste 30B-Modell in allen Benchmarks außer AIME 25.

Benchmark
GLM-4.7-Flash
Qwen3-30B-A3B-Thinking-2507
GPT-OSS-20B

AIME 25

91.6

85.0

91.7

GPQA

75.2

73.4

71.5

LCB v6

64.0

66.0

61.0

HLE

14.4

9.8

10.9

SWE-bench Verifiziert

59.2

22.0

34.0

τ²-Bench

79.5

49.0

47.7

BrowseComp

42.8

2.29

28.3

Zuletzt aktualisiert

War das hilfreich?