GLM-4.7-Flash:如何本地运行
在你的设备上本地运行并微调 GLM-4.7-Flash!
GLM-4.7-Flash 是 Z.ai 新推出的 30B MoE 推理模型,专为本地部署打造,在编程、智能体工作流和聊天方面提供同类最佳表现。它使用约 3.6B 参数,支持 20 万上下文,并在 SWE-Bench、GPQA 以及推理/聊天基准上领先。
GLM-4.7-Flash 可运行于 24GB 内存/VRAM/统一内存(完整精度需 32GB),现在还可以使用 Unsloth 进行微调。要在 vLLM 中运行 GLM 4.7 Flash,请查看 GLM-4.7-Flash
1月21日更新: llama.cpp 修复了指定错误的一个 bug scoring_func: "softmax" (应为 "sigmoid")。这会导致循环输出和较差的结果。我们已更新 GGUF 文件——请重新下载模型以获得更好的输出。
现在你可以使用 Z.ai 推荐的参数并获得很好的结果:
通用场景:
--temp 1.0 --top-p 0.95工具调用:
--temp 0.7 --top-p 1.0重复惩罚: 禁用它,或者设置
--repeat-penalty 1.0
1月22日:由于用于 CUDA 的 FA 修复已合并,更快的推理现在已经到来。
运行 GLM-4.7-Flash GGUF: unsloth/GLM-4.7-Flash-GGUF
⚙️ 使用指南
为获得最佳性能,请确保你可用的总内存(显存 + 系统内存)超过你下载的量化模型文件大小。如果不足,llama.cpp 仍然可以通过 SSD/HDD 卸载运行,但推理速度会更慢。
在与 Z.ai 团队交流后,他们建议使用其 GLM-4.7 采样参数:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
重复惩罚 = 禁用或 1.0
重复惩罚 = 禁用或 1.0
通用场景:
--temp 1.0 --top-p 0.95工具调用:
--temp 0.7 --top-p 1.0如果使用 llama.cpp,请设置
--min-p 0.01因为 llama.cpp 的默认值是 0.05有时你需要尝试不同的数值,看看哪些最适合你的使用场景。
目前,我们 不建议 使用 Ollama 运行此 GGUF,因为可能存在聊天模板兼容性问题。该 GGUF 在 llama.cpp(或诸如 LM Studio、Jan 等后端)上表现良好。
记得禁用重复惩罚!或者设置 --repeat-penalty 1.0
最大上下文窗口:
202,752
🖥️ 运行 GLM-4.7-Flash
根据你的用例,你需要使用不同的设置。一些 GGUF 之所以最终大小相近,是因为模型架构(例如 gpt-oss)的维度不能被 128 整除,因此部分内容无法量化到更低位宽。
由于本指南使用 4-bit,你大约需要 18GB 内存/统一内存。为了获得最佳性能,我们建议至少使用 4-bit 精度。
目前,我们 不建议 使用 Ollama 运行此 GGUF,因为可能存在聊天模板兼容性问题。该 GGUF 在 llama.cpp(或诸如 LM Studio、Jan 等后端)上表现良好。
记得禁用重复惩罚!或者设置 --repeat-penalty 1.0
🦥 Unsloth Studio 指南
GLM-4.7-Flash 可以在中运行和微调 Unsloth Studio,我们新的用于本地 AI 的开源网页界面。使用 Unsloth Studio,你可以在以下平台本地运行模型: MacOS、Windows、Linux 和:

安装 Unsloth
在你的终端中运行:
MacOS、Linux、WSL:
Windows PowerShell:
安装会很快,预计大约需要 1-2 分钟。
启动 Unsloth
MacOS、Linux、WSL 和 Windows:
然后在浏览器中打开 http://localhost:8888 。
搜索并下载 GLM-4.7-Flash
首次启动时,你需要创建密码以保护你的账户,并可在稍后重新登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基本设置。你可以随时跳过。
然后前往 Studio Chat 标签页并搜索 GLM-4.7-Flash 在搜索栏中输入,并下载你想要的模型和量化版本。

运行 GLM-4.7-Flash
在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。
如需更多信息,你可以查看我们的 Unsloth Studio 推理指南.

Llama.cpp 教程(GGUF):
在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。
你可以直接从 Hugging Face 拉取。你也可以根据 RAM/VRAM 的允许将上下文扩展到 20 万。
你也可以尝试 Z.ai 推荐的 GLM-4.7 采样参数:
通用场景:
--temp 1.0 --top-p 0.95工具调用:
--temp 0.7 --top-p 1.0记得禁用重复惩罚!
针对以下情况请遵循这个 通用说明 使用场景:
针对以下情况请遵循这个 工具调用 使用场景:
通过以下方式下载模型(在安装 pip install huggingface_hub之后)。你可以选择 UD-Q4_K_XL 或其他量化版本。如果下载卡住,请查看 Hugging Face Hub,XET 调试
然后以对话模式运行模型:
另外,请按需调整 上下文窗口 按需,最多到 202752
➿减少重复和循环
1月21日更新:llama.cpp 修复了指定错误的一个 bug "scoring_func": "softmax" 这会导致循环输出和较差的结果(应为 sigmoid)。我们已更新 GGUF 文件。请重新下载模型以获得更好的输出。
这意味着你现在可以使用 Z.ai 推荐的参数并获得很好的结果:
通用场景:
--temp 1.0 --top-p 0.95工具调用:
--temp 0.7 --top-p 1.0如果使用 llama.cpp,请设置
--min-p 0.01因为 llama.cpp 的默认值是 0.05记得禁用重复惩罚!或者设置
--repeat-penalty 1.0
我们添加了 "scoring_func": "sigmoid" 改为 config.json 用于主模型 - 见.
目前,我们 不建议 使用 Ollama 运行此 GGUF,因为可能存在聊天模板兼容性问题。该 GGUF 在 llama.cpp(或诸如 LM Studio、Jan 等后端)上表现良好。
🐦使用 UD-Q4_K_XL 的 Flappy Bird 示例
例如,我们通过以下方式使用 UD-Q4_K_XL 完成了下面这段长对话: ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :
这会渲染出如下 HTML 形式的 Flappy Bird 游戏:
我们还拍了一些截图(4bit 可用):


🦥 微调 GLM-4.7-Flash
Unsloth 现在支持对 GLM-4.7-Flash 进行微调,不过你需要使用 transformers v5。30B 模型无法放入免费的 Colab GPU;不过你可以使用我们的笔记本。GLM-4.7-Flash 的 16-bit LoRA 微调大约会使用 60GB VRAM:
在使用 A100 40GB VRAM 时,你有时可能会遇到显存不足。为了更顺畅地运行,你需要使用 H100/A100 80GB VRAM。
在微调 MoE 时,微调路由层可能不是个好主意,所以我们默认将其禁用。如果你想保留其推理能力(可选),可以使用直接回答和思维链示例的混合。至少使用 75% 推理 和 25% 非推理 ,以让模型保留其推理能力。
🦙Llama-server 服务与部署
要将 GLM-4.7-Flash 部署到生产环境,我们使用 llama-server 在一个新终端中,例如通过 tmux,按以下方式部署模型:
然后在一个新终端中,在执行 pip install openai之后,执行:
这将打印
💻 vLLM 中的 GLM-4.7-Flash
你现在可以使用我们新的 FP8 Dynamic 量化版本 该模型的高性能和快速推理。首先从 nightly 版本安装 vLLM:
然后提供服务 该模型的 Unsloth 动态 FP8 版本 该模型。我们启用了 FP8,将 KV cache 内存使用量减少 50%,并在 4 张 GPU 上运行。如果你只有 1 张 GPU,请使用 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 或者移除此参数。要禁用 FP8,请移除 --quantization fp8 --kv-cache-dtype fp8
然后你可以通过 OpenAI API 调用已提供服务的模型:
⭐ vLLM GLM-4.7-Flash 预测解码
我们发现,使用 GLM 4.7 Flash 的 MTP(多 token 预测)模块会使生成吞吐量从 1 台 B200 上的 13,000 tokens 降到 1,300 tokens!(慢 10 倍)在 Hopper 上,希望表现会没问题。
在 1xB200 上仅有 1,300 tokens/s 的吞吐量(每个用户解码 130 tokens/s)

而在 1xB200 上可达 13,000 tokens/s 的吞吐量(每个用户解码仍为 130 tokens/s)

🔨使用 GLM-4.7-Flash 进行工具调用
查看 Tool Calling Guide 以了解如何进行工具调用的更多细节。在一个新的终端中(如果使用 tmux,请按 CTRL+B+D),我们创建一些工具,比如两数相加、执行 Python 代码、执行 Linux 功能等等:
然后我们使用下面的函数(复制并粘贴执行),它会自动解析函数调用,并为任何模型调用 OpenAI 端点:
通过以下方式启动 GLM-4.7-Flash 后 llama-server 就像在 GLM-4.7-Flash 中一样,或者查看 Tool Calling Guide 以获取更多细节,然后我们就可以进行一些工具调用:
GLM 4.7 的数学运算工具调用

用于执行 GLM-4.7-Flash 生成的 Python 代码的工具调用

基准测试
除了 AIME 25 之外,GLM-4.7-Flash 是所有基准中表现最好的 30B 模型。

AIME 25
91.6
85.0
91.7
GPQA
75.2
73.4
71.5
LCB v6
64.0
66.0
61.0
HLE
14.4
9.8
10.9
SWE-bench Verified
59.2
22.0
34.0
τ²-Bench
79.5
49.0
47.7
BrowseComp
42.8
2.29
28.3
最后更新于
这有帮助吗?

