GLM-4.7-Flash: Anleitung zum lokalen Betrieb
Führe & feinabstimme GLM-4.7-Flash lokal auf deinem Gerät!
GLM-4.7-Flash ist Z.ai's neues 30B MoE-Reasoning-Modell für lokale Bereitstellung und bietet erstklassige Leistung für Programmierung, agentenbasierte Workflows und Chat. Es verwendet ~3,6B Parameter, unterstützt 200K Kontext und führt bei SWE-Bench, GPQA sowie Reasoning-/Chat-Benchmarks.
GLM-4.7-Flash läuft auf 24GB RAM/VRAM/unified Memory (32GB für volle Genauigkeit), und Sie können jetzt mit Unsloth feinabstimmen. Um GLM 4.7 Flash mit vLLM auszuführen, siehe GLM-4.7-Flash in vLLM
Update vom 21. Jan: llama.cpp behob einen Fehler, bei dem fälschlicherweise scoring_func: "softmax" (sollte "sigmoid") sein. Dies verursachte Schleifen und schlechte Ausgaben. Wir haben die GGUFs aktualisiert – bitte laden Sie das Modell erneut herunter für deutlich bessere Ergebnisse.
Sie können jetzt Z.ai’s empfohlene Parameter verwenden und großartige Ergebnisse erzielen:
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Wiederholungsstrafe: Deaktivieren Sie sie, oder setzen Sie
--repeat-penalty 1.0
22. Jan: Schnellere Inferenz ist verfügbar, da der FA-Fix für CUDA jetzt zusammengeführt wurde.
Tutorial zur AusführungFeinabstimmung
GLM-4.7-Flash GGUF zum Ausführen: unsloth/GLM-4.7-Flash-GGUF
⚙️ Gebrauchsanleitung
Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + System-RAM) größer ist als die Größe der quantisierten Modelldatei, die du herunterlädst. Wenn dies nicht der Fall ist, kann llama.cpp immer noch über SSD/HDD-Offloading laufen, aber die Inferenz wird langsamer sein.
Nach Rücksprache mit dem Z.ai-Team empfehlen sie, die folgenden GLM-4.7-Sampling-Parameter zu verwenden:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
repeat penalty = deaktiviert oder 1.0
repeat penalty = deaktiviert oder 1.0
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Wenn Sie llama.cpp verwenden, setzen Sie
--min-p 0.01da llama.cpp standardmäßig 0.05 hatManchmal müssen Sie experimentieren, welche Zahlen am besten für Ihren Anwendungsfall funktionieren.
Für jetzt, wir empfehlen nicht dieses GGUF mit Ollama auszuführen aufgrund möglicher Kompatibilitätsprobleme mit Chat-Vorlagen. Das GGUF funktioniert gut auf llama.cpp (oder Backends z. B. LM Studio, Jan).
Denken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie --repeat-penalty 1.0
Maximales Kontextfenster:
202,752
🖥️ GLM-4.7-Flash ausführen
Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs sind schließlich ähnlich groß, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bitbreiten quantisiert werden können.
Weil diese Anleitung 4-Bit verwendet, benötigen Sie etwa 18GB RAM/unified Memory. Wir empfehlen mindestens 4-Bit-Präzision für beste Leistung.
Für jetzt, wir empfehlen nicht dieses GGUF mit Ollama auszuführen aufgrund möglicher Kompatibilitätsprobleme mit Chat-Vorlagen. Das GGUF funktioniert gut auf llama.cpp (oder Backends z. B. LM Studio, Jan).
Denken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie --repeat-penalty 1.0
Llama.cpp Tutorial (GGUF):
Anweisungen zum Ausführen in llama.cpp (Hinweis: wir verwenden 4-Bit, um auf die meisten Geräte zu passen):
Holen Sie sich das neueste llama.cpp auf GitHub hier. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder einfach nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 200K erhöhen, je nachdem, wie Ihr RAM/VRAM es zulässt.
Sie können auch Z.ai's empfohlene GLM-4.7-Sampling-Parameter ausprobieren:
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Denken Sie daran, die Wiederholungsstrafe zu deaktivieren!
Folge dem für allgemeine Anweisung Anwendungsfälle:
Folge dem für tool-calling Anwendungsfälle:
Laden Sie das Modell über (nach Installation von pip install huggingface_hub). Sie können UD-Q4_K_XL oder andere quantisierte Versionen. Falls Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging
Dann das Modell im Konversationsmodus ausführen:
Passen Sie außerdem Kontextfenster wie benötigt an, bis zu 202752
➿Wiederholungen und Schleifen reduzieren
UPDATE 21. JAN: llama.cpp hat einen Fehler behoben, bei dem fälschlicherweise "scoring_func": "softmax" angegeben wurde, was Schleifen und schlechte Ausgaben verursachte (sollte sigmoid sein). Wir haben die GGUFs aktualisiert. Bitte laden Sie das Modell erneut herunter für deutlich bessere Ergebnisse.
Das bedeutet, Sie können jetzt Z.ai's empfohlene Parameter verwenden und großartige Ergebnisse erzielen:
Für allgemeine Anwendungsfälle:
--temp 1.0 --top-p 0.95Für Tool-Aufrufe:
--temp 0.7 --top-p 1.0Wenn Sie llama.cpp verwenden, setzen Sie
--min-p 0.01da llama.cpp standardmäßig 0.05 hatDenken Sie daran, die Wiederholungsstrafe zu deaktivieren! Oder setzen Sie
--repeat-penalty 1.0
Wir haben hinzugefügt "scoring_func": "sigmoid" zu config.json für das Hauptmodell - siehe.
Für jetzt, wir empfehlen nicht dieses GGUF mit Ollama auszuführen aufgrund möglicher Kompatibilitätsprobleme mit Chat-Vorlagen. Das GGUF funktioniert gut auf llama.cpp (oder Backends z. B. LM Studio, Jan).
🐦Flappy Bird Beispiel mit UD-Q4_K_XL
Als Beispiel führten wir das folgende lange Gespräch, indem wir UD-Q4_K_XL über ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :
was das folgende Flappy Bird Spiel in HTML-Form rendert:
Und wir haben einige Screenshots gemacht (4bit funktioniert):


🦥 Feinabstimmung von GLM-4.7-Flash
Unsloth unterstützt jetzt die Feinabstimmung von GLM-4.7-Flash, allerdings müssen Sie transformers v5verwenden. Das 30B-Modell passt nicht auf eine kostenlose Colab-GPU; Sie können jedoch unser Notebook verwenden. 16-Bit LoRA-Feinabstimmung von GLM-4.7-Flash verwendet etwa 60GB VRAM:
Bei Verwendung einer A100 mit 40GB VRAM kann es manchmal zu Out-of-Memory kommen. Sie sollten H100/A100 mit 80GB VRAM für reibungslosere Läufe verwenden.
Beim Feinabstimmen von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht feinabzustimmen, daher haben wir sie standardmäßig deaktiviert. Wenn Sie seine Reasoning-Fähigkeiten beibehalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens 75% Reasoning und 25% Nicht-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.
🦙 Llama-Server Bereitstellung & Deployment
Um GLM-4.7-Flash für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, das Modell wie folgt bereitstellen:
Dann in einem neuen Terminal, nachdem Sie pip install openaiausgeführt hast, mache:
Was ausgibt
💻 GLM-4.7-Flash in vLLM
Sie können jetzt unser neues FP8 dynamische Quantisierung des Modells für premium und schnelle Inferenz. Installieren Sie zuerst vLLM aus dem Nightly-Build:
Dann starten Sie den Dienst Unsloths dynamische FP8-Version des Modells. Wir haben FP8 aktiviert, um die KV-Cache-Speichernutzung um 50 % zu reduzieren, und auf 4 GPUs. Wenn Sie 1 GPU haben, verwenden Sie CUDA_VISIBLE_DEVICES='0' und setzen Sie --tensor-parallel-size 1 oder entfernen Sie dieses Argument. Um FP8 zu deaktivieren, entfernen Sie --quantization fp8 --kv-cache-dtype fp8
Sie können dann das bereitgestellte Modell über die OpenAI-API aufrufen:
⭐ vLLM GLM-4.7-Flash Spekulatives Decoding
Wir haben festgestellt, dass die Verwendung des MTP-(Multi Token Prediction)-Moduls von GLM 4.7 Flash den Generierungsdurchsatz von 13.000 Tokens auf 1 B200 auf 1.300 Tokens reduziert! (10x langsamer) Auf Hopper sollte es hoffentlich in Ordnung sein.
Nur 1.300 Tokens/s Durchsatz auf 1xB200 (130 Tokens/s Decoding pro Nutzer)

Und 13.000 Tokens/s Durchsatz auf 1xB200 (immer noch 130 Tokens/s Decoding pro Nutzer)

🔨Toolaufrufe mit GLM-4.7-Flash
Siehe Tool Calling Guide für weitere Details, wie man Toolaufrufe macht. In einem neuen Terminal (bei Verwendung von tmux drücken Sie STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:
Anschließend verwenden wir die untenstehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:
Nachdem GLM-4.7-Flash gestartet wurde über llama-server wie in GLM-4.7-Flash oder siehe Tool Calling Guide für weitere Details, können wir dann einige Toolaufrufe durchführen:
Toolaufruf für mathematische Operationen für GLM 4.7

Toolaufruf zum Ausführen generierten Python-Codes für GLM-4.7-Flash

Benchmarks
GLM-4.7-Flash ist das leistungsstärkste 30B-Modell in allen Benchmarks außer AIME 25.

AIME 25
91.6
85.0
91.7
GPQA
75.2
73.4
71.5
LCB v6
64.0
66.0
61.0
HLE
14.4
9.8
10.9
SWE-bench Verifiziert
59.2
22.0
34.0
τ²-Bench
79.5
49.0
47.7
BrowseComp
42.8
2.29
28.3
Zuletzt aktualisiert
War das hilfreich?

