GLM-4.7-Flash: So führst du es lokal aus
Führe und feinabstimme GLM-4.7-Flash lokal auf deinem Gerät!
GLM-4.7-Flash ist Z.ais neues 30B-MoE-Reasoning-Modell für den lokalen Einsatz und liefert erstklassige Leistung für Coding, agentische Workflows und Chat. Es verwendet ~3,6B Parameter, unterstützt 200K Kontext und führt bei den Benchmarks SWE-Bench, GPQA und Reasoning/Chat.
GLM-4.7-Flash läuft mit 24 GB RAM/VRAM/vereinheitlichtem Speicher (32 GB für volle Präzision), und Sie können jetzt mit Unsloth feinabstimmen. Um GLM 4.7 Flash mit vLLM auszuführen, siehe GLM-4.7-Flash in vLLM
Update vom 21. Jan.: llama.cpp einen Fehler behoben, bei dem die falsche scoring_func: "softmax" angegeben war (sollte "sigmoid"sein). Dies führte zu Schleifen und schlechten Ausgaben. Wir haben die GGUFs aktualisiert - bitte laden Sie das Modell erneut herunter, um deutlich bessere Ausgaben zu erhalten.
Sie können jetzt die von Z.ai empfohlenen Parameter verwenden und großartige Ergebnisse erzielen:
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Wiederholungsstrafe: Deaktivieren Sie sie oder setzen Sie
--repeat-penalty 1.0
21. Jan.: Schnellere Inferenz ist da, da der FA-Fix für CUDA jetzt zusammengeführt wurde.
AusführungstutorialFine-Tuning
GLM-4.7-Flash GGUF zum Ausführen: unsloth/GLM-4.7-Flash-GGUF
⚙️ Verwendungsleitfaden
Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + Systemspeicher) die Größe der quantisierten Modelldatei übersteigt, die du herunterlädst. Wenn nicht, kann llama.cpp weiterhin per SSD/HDD-Offloading ausgeführt werden, aber die Inferenz wird langsamer sein.
Nach Rücksprache mit dem Team von Z.ai empfehlen sie, ihre Sampling-Parameter für GLM-4.7 zu verwenden:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Wenn Sie llama.cpp verwenden, setzen Sie
--min-p 0.01da der Standardwert von llama.cpp 0.05 istManchmal müssen Sie ausprobieren, welche Zahlen für Ihren Anwendungsfall am besten funktionieren.
Vorerst empfehlen wir nicht die Ausführung dieses GGUF mit Ollama wegen möglicher Kompatibilitätsprobleme mit der Chat-Vorlage. Das GGUF funktioniert gut mit llama.cpp (oder Backends wie z. B. LM Studio, Jan).
Denken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie --repeat-penalty 1.0
Maximales Kontextfenster:
202,752
🖥️ GLM-4.7-Flash ausführen
Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs landen in ähnlicher Größe, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.
Da diese Anleitung 4-Bit verwendet, benötigen Sie etwa 18 GB RAM/vereinheitlichten Speicher. Wir empfehlen, mindestens 4-Bit-Präzision für die beste Leistung zu verwenden.
Vorerst empfehlen wir nicht die Ausführung dieses GGUF mit Ollama wegen möglicher Kompatibilitätsprobleme mit der Chat-Vorlage. Das GGUF funktioniert gut mit llama.cpp (oder Backends wie z. B. LM Studio, Jan).
Denken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie --repeat-penalty 1.0
Llama.cpp-Tutorial (GGUF):
Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden werden, um auf die meisten Geräte zu passen):
Beschaffe die neueste llama.cpp auf GitHub hier. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.
Sie können direkt von Hugging Face laden. Sie können den Kontext auf 200K erhöhen, sofern Ihr RAM/VRAM dies zulässt.
Sie können auch die von Z.ai empfohlenen Sampling-Parameter für GLM-4.7 ausprobieren:
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Denken Sie daran, die Wiederholungsstrafe zu deaktivieren!
Folge dies für allgemeine Instruktions- Anwendungsfälle:
Folge dies für Tool-Aufrufe Anwendungsfälle:
Lade das Modell über (nach Installation von pip install huggingface_hub). Du kannst UD-Q4_K_XL oder andere quantisierte Versionen. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging
Dann führe das Modell im Gesprächsmodus aus:
Passen Sie außerdem das Kontextfenster wie erforderlich, bis zu 202752
➿Wiederholungen und Schleifen reduzieren
UPDATE VOM 21. JAN.: llama.cpp hat einen Fehler behoben, bei dem die falsche "scoring_func": "softmax" angegeben war, was zu Schleifen und schlechten Ausgaben führte (sollte sigmoid sein). Wir haben die GGUFs aktualisiert. Bitte laden Sie das Modell erneut herunter, um deutlich bessere Ausgaben zu erhalten.
Das bedeutet, dass Sie jetzt die von Z.ai empfohlenen Parameter verwenden und großartige Ergebnisse erzielen können:
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Wenn Sie llama.cpp verwenden, setzen Sie
--min-p 0.01da der Standardwert von llama.cpp 0.05 istDenken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie
--repeat-penalty 1.0
Wir haben "scoring_func": "sigmoid" zu config.json für das Hauptmodell hinzugefügt - siehe.
Vorerst empfehlen wir nicht die Ausführung dieses GGUF mit Ollama wegen möglicher Kompatibilitätsprobleme mit der Chat-Vorlage. Das GGUF funktioniert gut mit llama.cpp (oder Backends wie z. B. LM Studio, Jan).
🐦Flappy-Bird-Beispiel mit UD-Q4_K_XL
Als Beispiel haben wir den folgenden langen Dialog erstellt, indem wir UD-Q4_K_XL verwendet haben über ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :
was das folgende Flappy-Bird-Spiel in HTML-Form gerendert hat:
Und wir haben einige Screenshots gemacht (4bit funktioniert):


🦥 GLM-4.7-Flash feinabstimmen
Unsloth unterstützt jetzt die Feinabstimmung von GLM-4.7-Flash, allerdings müssen Sie transformers v5. Das 30B-Modell passt nicht auf eine kostenlose Colab-GPU; Sie können jedoch unser Notebook verwenden. Eine 16-Bit-LoRA-Feinabstimmung von GLM-4.7-Flash verwendet etwa 60 GB VRAM:
Es kann manchmal zu Out-of-Memory-Problemen kommen, wenn Sie A100 40GB VRAM verwenden. Für reibungslosere Läufe benötigen Sie H100/A100 80GB VRAM.
Beim Feinabstimmen von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht fein abzustimmen, daher haben wir sie standardmäßig deaktiviert. Wenn Sie die Reasoning-Fähigkeiten beibehalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens 75 % Reasoning und 25 % Non-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten beibehält.
🦙 Llama-Server-Bereitstellung & Deployment
Um GLM-4.7-Flash produktiv bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:
Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast:
Das wird ausgeben
💻 GLM-4.7-Flash in vLLM
Du kannst jetzt unser neues FP8 Dynamic Quant des Modells für Premium- und schnelle Inferenz. Installieren Sie zuerst vLLM aus dem Nightly-Build:
Dann bereitstellen Unsloths dynamische FP8-Version des Modells. Wir haben FP8 aktiviert, um die Speichernutzung des KV-Cache um 50 % zu reduzieren, und zwar auf 4 GPUs. Wenn Sie 1 GPU haben, verwenden Sie CUDA_VISIBLE_DEVICES='0' und setze --tensor-parallel-size 1 oder entfernen Sie dieses Argument. Um FP8 zu deaktivieren, entfernen Sie --quantization fp8 --kv-cache-dtype fp8
Sie können das bereitgestellte Modell dann über die OpenAI-API aufrufen:
⭐ vLLM GLM-4.7-Flash Spekulatives Decoding
Wir haben festgestellt, dass die Verwendung des MTP-Moduls (multi token prediction) von GLM 4.7 Flash den Generierungsdurchsatz von 13.000 Tokens auf 1 B200 auf 1.300 Tokens senkt! (10x langsamer) Auf Hopper sollte es hoffentlich in Ordnung sein.
Nur 1.300 Tokens/s Durchsatz auf 1xB200 (130 Tokens/s Decoding pro Nutzer)

Und 13.000 Tokens/s Durchsatz auf 1xB200 (immer noch 130 Tokens/s Decoding pro Nutzer)

🔨Tool-Aufrufe mit GLM-4.7-Flash
Siehe Tool Calling Guide für weitere Details dazu, wie man Tool-Calling durchführt. In einem neuen Terminal (wenn Sie tmux verwenden, nutzen Sie STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:
Wir verwenden dann die folgenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch analysieren und für jedes Modell den OpenAI-Endpunkt aufrufen:
Nach dem Start von GLM-4.7-Flash über llama-server wie in GLM-4.7-Flash oder siehe Tool Calling Guide für weitere Details können wir dann einige Tool-Aufrufe durchführen:
Tool-Aufruf für mathematische Operationen für GLM 4.7

Tool-Aufruf zum Ausführen von generiertem Python-Code für GLM-4.7-Flash

Benchmarks
GLM-4.7-Flash ist das leistungsstärkste 30B-Modell über alle Benchmarks hinweg, außer AIME 25.

AIME 25
91.6
85.0
91.7
GPQA
75.2
73.4
71.5
LCB v6
64.0
66.0
61.0
HLE
14.4
9.8
10.9
SWE-bench Verified
59.2
22.0
34.0
τ²-Bench
79.5
49.0
47.7
BrowseComp
42.8
2.29
28.3
Zuletzt aktualisiert
War das hilfreich?

