For the complete documentation index, see llms.txt. This page is also available as Markdown.

GLM-4.7-Flash: Wie man lokal ausführt

Führe GLM-4.7-Flash lokal auf deinem Gerät aus und feinabstimme es!

GLM-4.7-Flash ist Z.ais neues 30B-MoE-Reasoning-Modell, das für den lokalen Einsatz entwickelt wurde und erstklassige Leistung für Coding, agentische Workflows und Chat bietet. Es verwendet ~3,6B Parameter, unterstützt 200K Kontext und führt bei SWE-Bench, GPQA sowie Reasoning-/Chat-Benchmarks.

GLM-4.7-Flash läuft auf 24 GB RAM/VRAM/vereinheitlichtem Speicher (32 GB für volle Genauigkeit), und Sie können jetzt mit Unsloth feinabstimmen. Um GLM 4.7 Flash mit vLLM auszuführen, siehe GLM-4.7-Flash in vLLM

AusführungstutorialFeinabstimmung

GLM-4.7-Flash GGUF zum Ausführen: unsloth/GLM-4.7-Flash-GGUF

⚙️ Nutzungsanleitung

Für die beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + Systemspeicher) größer ist als die Größe der quantisierten Modelldatei, die du herunterlädst. Falls nicht, kann llama.cpp weiterhin über SSD/HDD-Offloading ausgeführt werden, aber die Inferenz wird langsamer sein.

Nachdem wir mit dem Team von Z.ai gesprochen hatten, empfehlen sie, ihre GLM-4.7-Sampling-Parameter zu verwenden:

Standard-Einstellungen (die meisten Aufgaben)
Terminal Bench, SWE Bench Verified

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

Wiederholungsstrafe = deaktiviert oder 1,0

Wiederholungsstrafe = deaktiviert oder 1,0

  • Für allgemeine Anwendungsfälle: --temp 1.0 --top-p 0.95

  • Für Tool-Aufrufe: --temp 0.7 --top-p 1.0

  • Wenn Sie llama.cpp verwenden, setzen Sie --min-p 0.01 da der Standardwert von llama.cpp 0.05 ist

  • Manchmal müssen Sie ausprobieren, welche Werte für Ihren Anwendungsfall am besten funktionieren.

  • Maximales Kontextfenster: 202,752

🖥️ GLM-4.7-Flash ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs landen in ähnlicher Größe, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.

Da diese Anleitung 4-Bit verwendet, benötigen Sie etwa 18 GB RAM/vereinheitlichten Speicher. Für die beste Leistung empfehlen wir, mindestens 4-Bit-Präzision zu verwenden.

🦥 Unsloth Studio-Anleitung

GLM-4.7-Flash kann ausgeführt und feinabgestimmt werden in Unsloth Studio, unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio können Sie Modelle lokal ausführen auf MacOS, Windows, Linux und:

1

Unsloth installieren

Führen Sie es in Ihrem Terminal aus:

MacOS, Linux, WSL:

Windows PowerShell:

2

Unsloth starten

MacOS, Linux, WSL und Windows:

Dann öffnen Sie http://localhost:8888 in Ihrem Browser.

3

GLM-4.7-Flash suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, in dem Sie ein Modell, einen Datensatz und grundlegende Einstellungen auswählen. Sie können ihn jederzeit überspringen.

Gehen Sie dann zur Studio Chat Tab und suche nach GLM-4.7-Flash in die Suchleiste eingeben und das gewünschte Modell sowie Quant herunterladen.

4

GLM-4.7-Flash ausführen

Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserer Unsloth Studio-Inferenzanleitung.

Llama.cpp-Tutorial (GGUF):

Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden werden, damit es auf die meisten Geräte passt):

1

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2

Sie können direkt von Hugging Face herunterladen. Sie können den Kontext auf 200K erhöhen, soweit es Ihr RAM/VRAM zulässt.

Sie können auch die von Z.ai empfohlenen GLM-4.7-Sampling-Parameter ausprobieren:

  • Für allgemeine Anwendungsfälle: --temp 1.0 --top-p 0.95

  • Für Tool-Aufrufe: --temp 0.7 --top-p 1.0

  • Denken Sie daran, die Wiederholungsstrafe zu deaktivieren!

Folge dem hier für allgemeine Anweisungs- Anwendungsfälle:

Folge dem hier für Tool-Aufruf Anwendungsfälle:

3

Lade das Modell herunter über (nach der Installation von pip install huggingface_hub). Du kannst UD-Q4_K_XL oder andere quantisierte Versionen. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

4

Führen Sie das Modell dann im Konversationsmodus aus:

Passen Sie außerdem das Kontextfenster je nach Bedarf, bis zu 202752

Wiederholungen und Schleifen reduzieren

Das bedeutet, dass Sie jetzt die von Z.ai empfohlenen Parameter verwenden und großartige Ergebnisse erzielen können:

  • Für allgemeine Anwendungsfälle: --temp 1.0 --top-p 0.95

  • Für Tool-Aufrufe: --temp 0.7 --top-p 1.0

  • Wenn Sie llama.cpp verwenden, setzen Sie --min-p 0.01 da der Standardwert von llama.cpp 0.05 ist

  • Denken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie --repeat-penalty 1.0

Wir haben "scoring_func": "sigmoid" zu config.json für das Hauptmodell hinzugefügt - siehe.

🐦Flappy-Bird-Beispiel mit UD-Q4_K_XL

Als Beispiel haben wir den folgenden langen Dialog durchgeführt, indem wir UD-Q4_K_XL verwendet haben über ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :

was das folgende Flappy-Bird-Spiel in HTML-Form gerendert hat:

Flappy-Bird-Spiel in HTML (erweiterbar)

Und wir haben einige Screenshots gemacht (4 Bit funktioniert):

🦥 Feinabstimmung von GLM-4.7-Flash

Unsloth unterstützt jetzt die Feinabstimmung von GLM-4.7-Flash, allerdings müssen Sie transformers v5verwenden. Das 30B-Modell passt nicht auf eine kostenlose Colab-GPU; Sie können jedoch unser Notebook verwenden. Die 16-Bit-LoRA-Feinabstimmung von GLM-4.7-Flash benötigt etwa 60 GB VRAM:

Bei der Feinabstimmung von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht mit feinabzustimmen, also haben wir sie standardmäßig deaktiviert. Wenn Sie ihre Reasoning-Fähigkeiten erhalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens 75 % Reasoning und 25 % nicht-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten beibehält.

🦙Llama-Server Serving & Deployment

Um GLM-4.7-Flash für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:

Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast, mache:

Das wird ausgeben

💻 GLM-4.7-Flash in vLLM

Du kannst jetzt unsere neue FP8 Dynamic Quantisierung des Modells für Premium- und schnelle Inferenz. Installieren Sie zuerst vLLM aus dem Nightly-Build:

Dann starte Unsloths dynamische FP8-Version des Modells. Wir haben FP8 aktiviert, um den Speicherverbrauch des KV-Caches um 50 % zu reduzieren, und auf 4 GPUs. Wenn Sie 1 GPU haben, verwenden Sie CUDA_VISIBLE_DEVICES='0' und setze --tensor-parallel-size 1 oder entfernen Sie dieses Argument. Um FP8 zu deaktivieren, entfernen Sie --quantization fp8 --kv-cache-dtype fp8

Du kannst das bereitgestellte Modell dann über die OpenAI-API aufrufen:

vLLM GLM-4.7-Flash spekulatives Dekodieren

Wir haben festgestellt, dass die Verwendung des MTP-Moduls (Multi-Token-Prediction) aus GLM 4.7 Flash den Generierungsdurchsatz von 13.000 Tokens auf 1 B200 auf 1.300 Tokens senkt! (10x langsamer) Auf Hopper sollte es hoffentlich in Ordnung sein.

Nur 1.300 Tokens/s Durchsatz auf 1xB200 (130 Tokens/s Dekodierung pro Benutzer)

Und 13.000 Tokens/s Durchsatz auf 1xB200 (immer noch 130 Tokens/s Dekodierung pro Benutzer)

🔨Tool-Aufrufe mit GLM-4.7-Flash

Siehe Tool Calling Guide für weitere Details dazu, wie Tool-Calling durchgeführt wird. In einem neuen Terminal (wenn Sie tmux verwenden, nutzen Sie CTRL+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:

Wir verwenden dann die folgenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch parsen und für jedes Modell den OpenAI-Endpunkt aufrufen:

Nach dem Start von GLM-4.7-Flash über llama-server wie in GLM-4.7-Flash oder siehe Tool Calling Guide für weitere Details gestartet wurde, können wir dann einige Tool-Aufrufe durchführen:

Tool-Aufruf für mathematische Operationen für GLM 4.7

Tool-Aufruf zum Ausführen des generierten Python-Codes für GLM-4.7-Flash

Benchmarks

GLM-4.7-Flash ist das leistungsstärkste 30B-Modell über alle Benchmarks hinweg, außer AIME 25.

Benchmark
GLM-4.7-Flash
Qwen3-30B-A3B-Thinking-2507
GPT-OSS-20B

AIME 25

91.6

85.0

91.7

GPQA

75.2

73.4

71.5

LCB v6

64.0

66.0

61.0

HLE

14.4

9.8

10.9

SWE-bench Verified

59.2

22.0

34.0

τ²-Bench

79.5

49.0

47.7

BrowseComp

42.8

2.29

28.3

Zuletzt aktualisiert

War das hilfreich?