GLM-4.7-Flash: Wie man lokal ausführt
Führe GLM-4.7-Flash lokal auf deinem Gerät aus und feinabstimme es!
GLM-4.7-Flash ist Z.ais neues 30B-MoE-Reasoning-Modell, das für den lokalen Einsatz entwickelt wurde und erstklassige Leistung für Coding, agentische Workflows und Chat bietet. Es verwendet ~3,6B Parameter, unterstützt 200K Kontext und führt bei SWE-Bench, GPQA sowie Reasoning-/Chat-Benchmarks.
GLM-4.7-Flash läuft auf 24 GB RAM/VRAM/vereinheitlichtem Speicher (32 GB für volle Genauigkeit), und Sie können jetzt mit Unsloth feinabstimmen. Um GLM 4.7 Flash mit vLLM auszuführen, siehe GLM-4.7-Flash in vLLM
Update vom 21. Jan.: llama.cpp einen Fehler behoben, der das falsche scoring_func: "softmax" angegeben hat (sollte "sigmoid"sein). Dies führte zu Schleifen und schlechten Ausgaben. Wir haben die GGUFs aktualisiert – bitte laden Sie das Modell erneut herunter, um deutlich bessere Ausgaben zu erhalten.
Sie können jetzt die von Z.ai empfohlenen Parameter verwenden und großartige Ergebnisse erzielen:
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Wiederholungsstrafe: Deaktivieren Sie sie oder setzen Sie
--repeat-penalty 1.0
22. Jan.: Schnellere Inferenz ist da, da der FA-Fix für CUDA nun zusammengeführt wurde.
AusführungstutorialFeinabstimmung
GLM-4.7-Flash GGUF zum Ausführen: unsloth/GLM-4.7-Flash-GGUF
⚙️ Nutzungsanleitung
Für die beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + Systemspeicher) größer ist als die Größe der quantisierten Modelldatei, die du herunterlädst. Falls nicht, kann llama.cpp weiterhin über SSD/HDD-Offloading ausgeführt werden, aber die Inferenz wird langsamer sein.
Nachdem wir mit dem Team von Z.ai gesprochen hatten, empfehlen sie, ihre GLM-4.7-Sampling-Parameter zu verwenden:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
Wiederholungsstrafe = deaktiviert oder 1,0
Wiederholungsstrafe = deaktiviert oder 1,0
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Wenn Sie llama.cpp verwenden, setzen Sie
--min-p 0.01da der Standardwert von llama.cpp 0.05 istManchmal müssen Sie ausprobieren, welche Werte für Ihren Anwendungsfall am besten funktionieren.
Vorerst empfehlen wir nicht die Ausführung dieses GGUF mit Ollama aufgrund möglicher Kompatibilitätsprobleme mit der Chat-Vorlage. Das GGUF funktioniert gut mit llama.cpp (oder Backends wie z. B. LM Studio, Jan).
Denken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie --repeat-penalty 1.0
Maximales Kontextfenster:
202,752
🖥️ GLM-4.7-Flash ausführen
Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs landen in ähnlicher Größe, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.
Da diese Anleitung 4-Bit verwendet, benötigen Sie etwa 18 GB RAM/vereinheitlichten Speicher. Für die beste Leistung empfehlen wir, mindestens 4-Bit-Präzision zu verwenden.
Vorerst empfehlen wir nicht die Ausführung dieses GGUF mit Ollama aufgrund möglicher Kompatibilitätsprobleme mit der Chat-Vorlage. Das GGUF funktioniert gut mit llama.cpp (oder Backends wie z. B. LM Studio, Jan).
Denken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie --repeat-penalty 1.0
🦥 Unsloth Studio-Anleitung
GLM-4.7-Flash kann ausgeführt und feinabgestimmt werden in Unsloth Studio, unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio können Sie Modelle lokal ausführen auf MacOS, Windows, Linux und:
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Selbstheilendes Tool-Calling + Websuche
Code-Ausführung (Python, Bash)
Automatische Inferenz Parameter-Tuning (Temp, Top-p usw.)
Schnelle CPU-+GPU-Inferenz via llama.cpp
LLMs trainieren 2x schneller mit 70% weniger VRAM

Unsloth installieren
Führen Sie es in Ihrem Terminal aus:
MacOS, Linux, WSL:
Windows PowerShell:
Die Installation geht schnell und dauert ungefähr 1-2 Minuten.
Unsloth starten
MacOS, Linux, WSL und Windows:
Dann öffnen Sie http://localhost:8888 in Ihrem Browser.
GLM-4.7-Flash suchen und herunterladen
Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, in dem Sie ein Modell, einen Datensatz und grundlegende Einstellungen auswählen. Sie können ihn jederzeit überspringen.
Gehen Sie dann zur Studio Chat Tab und suche nach GLM-4.7-Flash in die Suchleiste eingeben und das gewünschte Modell sowie Quant herunterladen.

GLM-4.7-Flash ausführen
Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.
Weitere Informationen finden Sie in unserer Unsloth Studio-Inferenzanleitung.

Llama.cpp-Tutorial (GGUF):
Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden werden, damit es auf die meisten Geräte passt):
Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Sie können direkt von Hugging Face herunterladen. Sie können den Kontext auf 200K erhöhen, soweit es Ihr RAM/VRAM zulässt.
Sie können auch die von Z.ai empfohlenen GLM-4.7-Sampling-Parameter ausprobieren:
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Denken Sie daran, die Wiederholungsstrafe zu deaktivieren!
Folge dem hier für allgemeine Anweisungs- Anwendungsfälle:
Folge dem hier für Tool-Aufruf Anwendungsfälle:
Lade das Modell herunter über (nach der Installation von pip install huggingface_hub). Du kannst UD-Q4_K_XL oder andere quantisierte Versionen. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging
Führen Sie das Modell dann im Konversationsmodus aus:
Passen Sie außerdem das Kontextfenster je nach Bedarf, bis zu 202752
➿Wiederholungen und Schleifen reduzieren
UPDATE VOM 21. JAN.: llama.cpp hat einen Fehler behoben, der das falsche "scoring_func": "softmax" angegeben hat und zu Schleifen und schlechten Ausgaben führte (sollte sigmoid sein). Wir haben die GGUFs aktualisiert. Bitte laden Sie das Modell erneut herunter, um deutlich bessere Ausgaben zu erhalten.
Das bedeutet, dass Sie jetzt die von Z.ai empfohlenen Parameter verwenden und großartige Ergebnisse erzielen können:
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Wenn Sie llama.cpp verwenden, setzen Sie
--min-p 0.01da der Standardwert von llama.cpp 0.05 istDenken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie
--repeat-penalty 1.0
Wir haben "scoring_func": "sigmoid" zu config.json für das Hauptmodell hinzugefügt - siehe.
Vorerst empfehlen wir nicht die Ausführung dieses GGUF mit Ollama aufgrund möglicher Kompatibilitätsprobleme mit der Chat-Vorlage. Das GGUF funktioniert gut mit llama.cpp (oder Backends wie z. B. LM Studio, Jan).
🐦Flappy-Bird-Beispiel mit UD-Q4_K_XL
Als Beispiel haben wir den folgenden langen Dialog durchgeführt, indem wir UD-Q4_K_XL verwendet haben über ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :
was das folgende Flappy-Bird-Spiel in HTML-Form gerendert hat:
Und wir haben einige Screenshots gemacht (4 Bit funktioniert):


🦥 Feinabstimmung von GLM-4.7-Flash
Unsloth unterstützt jetzt die Feinabstimmung von GLM-4.7-Flash, allerdings müssen Sie transformers v5verwenden. Das 30B-Modell passt nicht auf eine kostenlose Colab-GPU; Sie können jedoch unser Notebook verwenden. Die 16-Bit-LoRA-Feinabstimmung von GLM-4.7-Flash benötigt etwa 60 GB VRAM:
Es kann gelegentlich zu Speicherüberläufen kommen, wenn Sie A100 mit 40 GB VRAM verwenden. Für reibungslosere Läufe benötigen Sie H100/A100 mit 80 GB VRAM.
Bei der Feinabstimmung von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht mit feinabzustimmen, also haben wir sie standardmäßig deaktiviert. Wenn Sie ihre Reasoning-Fähigkeiten erhalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens 75 % Reasoning und 25 % nicht-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten beibehält.
🦙Llama-Server Serving & Deployment
Um GLM-4.7-Flash für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:
Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast, mache:
Das wird ausgeben
💻 GLM-4.7-Flash in vLLM
Du kannst jetzt unsere neue FP8 Dynamic Quantisierung des Modells für Premium- und schnelle Inferenz. Installieren Sie zuerst vLLM aus dem Nightly-Build:
Dann starte Unsloths dynamische FP8-Version des Modells. Wir haben FP8 aktiviert, um den Speicherverbrauch des KV-Caches um 50 % zu reduzieren, und auf 4 GPUs. Wenn Sie 1 GPU haben, verwenden Sie CUDA_VISIBLE_DEVICES='0' und setze --tensor-parallel-size 1 oder entfernen Sie dieses Argument. Um FP8 zu deaktivieren, entfernen Sie --quantization fp8 --kv-cache-dtype fp8
Du kannst das bereitgestellte Modell dann über die OpenAI-API aufrufen:
⭐ vLLM GLM-4.7-Flash spekulatives Dekodieren
Wir haben festgestellt, dass die Verwendung des MTP-Moduls (Multi-Token-Prediction) aus GLM 4.7 Flash den Generierungsdurchsatz von 13.000 Tokens auf 1 B200 auf 1.300 Tokens senkt! (10x langsamer) Auf Hopper sollte es hoffentlich in Ordnung sein.
Nur 1.300 Tokens/s Durchsatz auf 1xB200 (130 Tokens/s Dekodierung pro Benutzer)

Und 13.000 Tokens/s Durchsatz auf 1xB200 (immer noch 130 Tokens/s Dekodierung pro Benutzer)

🔨Tool-Aufrufe mit GLM-4.7-Flash
Siehe Tool Calling Guide für weitere Details dazu, wie Tool-Calling durchgeführt wird. In einem neuen Terminal (wenn Sie tmux verwenden, nutzen Sie CTRL+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:
Wir verwenden dann die folgenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch parsen und für jedes Modell den OpenAI-Endpunkt aufrufen:
Nach dem Start von GLM-4.7-Flash über llama-server wie in GLM-4.7-Flash oder siehe Tool Calling Guide für weitere Details gestartet wurde, können wir dann einige Tool-Aufrufe durchführen:
Tool-Aufruf für mathematische Operationen für GLM 4.7

Tool-Aufruf zum Ausführen des generierten Python-Codes für GLM-4.7-Flash

Benchmarks
GLM-4.7-Flash ist das leistungsstärkste 30B-Modell über alle Benchmarks hinweg, außer AIME 25.

AIME 25
91.6
85.0
91.7
GPQA
75.2
73.4
71.5
LCB v6
64.0
66.0
61.0
HLE
14.4
9.8
10.9
SWE-bench Verified
59.2
22.0
34.0
τ²-Bench
79.5
49.0
47.7
BrowseComp
42.8
2.29
28.3
Zuletzt aktualisiert
War das hilfreich?

