zGLM-4.7-Flash:如何在本地运行

在你的设备上本地运行并微调 GLM-4.7-Flash!

GLM-4.7-Flash 是 Z.ai 全新的 30B MoE 推理模型,专为本地部署打造,在编码、智能体工作流和聊天方面提供同类最佳性能。它仅使用约 3.6B 参数,支持 200K 上下文,并在 SWE-Bench、GPQA 以及推理/聊天基准测试中领先。

GLM-4.7-Flash 可运行于 24GB RAM/VRAM/统一内存(完整精度需 32GB),现在你也可以使用 Unsloth 进行微调。要通过 vLLM 运行 GLM 4.7 Flash,请参见 GLM-4.7-Flash

circle-check

运行教程微调

要运行的 GLM-4.7-Flash GGUF: unsloth/GLM-4.7-Flash-GGUFarrow-up-right

⚙️ 使用指南

为了获得最佳性能,请确保你的可用总内存(VRAM + 系统 RAM)超过你正在下载的量化模型文件大小。如果不够,llama.cpp 仍可通过 SSD/HDD 卸载运行,但推理会更慢。

在与 Z.ai 团队沟通后,他们建议使用其 GLM-4.7 采样参数:

默认设置(大多数任务)
Terminal Bench、SWE Bench Verified

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

repeat penalty = disabled or 1.0

repeat penalty = disabled or 1.0

  • 对于通用场景: --temp 1.0 --top-p 0.95

  • 对于工具调用: --temp 0.7 --top-p 1.0

  • 如果使用 llama.cpp,请设置 --min-p 0.01 因为 llama.cpp 的默认值是 0.05

  • 有时你需要试验哪些数值最适合你的使用场景。

circle-exclamation
  • 最大上下文窗口: 202,752

🖥️ 运行 GLM-4.7-Flash

根据你的使用场景,你需要使用不同的设置。由于模型架构(如 gpt-oss)的某些维度不能被 128 整除,因此某些部分无法量化到更低位。

因为本指南使用 4 位,你将需要大约 18GB RAM/统一内存。我们建议至少使用 4 位精度以获得最佳性能。

circle-exclamation

🦥 Unsloth Studio 指南

GLM-4.7-Flash 可以运行并微调于 Unsloth Studio中运行和微调,这是我们新推出的本地 AI 开源 Web UI。使用 Unsloth Studio,你可以在以下平台本地运行模型: MacOS、Windows、Linux,以及:

1

安装 Unsloth

在你的终端中运行:

MacOS、Linux、WSL:

Windows PowerShell:

circle-check
2

启动 Unsloth

MacOS、Linux、WSL 和 Windows:

然后打开 http://localhost:8888 在你的浏览器中。

3

搜索并下载 GLM-4.7-Flash

首次启动时,你需要创建密码以保护你的账户,并在之后重新登录。随后你会看到一个简短的新手引导向导,用于选择模型、数据集和基本设置。你可以随时跳过它。

然后前往 Studio Chat 标签页并搜索 GLM-4.7-Flash 在搜索栏中输入,并下载你想要的模型和量化版本。

4

运行 GLM-4.7-Flash

使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。

更多信息,请查看我们的 Unsloth Studio 推理指南.

Llama.cpp 教程(GGUF):

在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):

1

获取最新的 llama.cppGitHub 这里arrow-up-right。你也可以按照下面的构建说明进行操作。把 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只是想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF ,然后照常继续——Metal 支持默认开启。

2

你可以直接从 Hugging Face 拉取。随着你的 RAM/VRAM 允许,你可以将上下文增加到 200K。

你也可以尝试 Z.ai 推荐的 GLM-4.7 采样参数:

  • 对于通用场景: --temp 1.0 --top-p 0.95

  • 对于工具调用: --temp 0.7 --top-p 1.0

  • 记得关闭重复惩罚!

按以下方式用于 通用指令 用例:

按以下方式用于 工具调用 用例:

3

通过以下方式下载模型(在安装后 pip install huggingface_hub)。你可以选择 UD-Q4_K_XL 或其他量化版本。如果下载卡住,请参见 Hugging Face Hub,XET 调试

4

然后以对话模式运行模型:

另外,按需调整 上下文窗口 按需,最多到 202752

减少重复和循环

circle-check

这意味着你现在可以使用 Z.ai 推荐的参数并获得很好的结果:

  • 对于通用场景: --temp 1.0 --top-p 0.95

  • 对于工具调用: --temp 0.7 --top-p 1.0

  • 如果使用 llama.cpp,请设置 --min-p 0.01 因为 llama.cpp 的默认值是 0.05

  • 记得关闭重复惩罚!或者设置 --repeat-penalty 1.0

我们添加了 "scoring_func": "sigmoid" 改为 config.json 用于主模型 - arrow-up-right.

circle-exclamation

🐦使用 UD-Q4_K_XL 的 Flappy Bird 示例

作为示例,我们通过以下方式使用 UD-Q4_K_XL 完成了一段很长的对话: ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :

这会在 HTML 形式下渲染出以下 Flappy Bird 游戏:

chevron-rightHTML 中的 Flappy Bird 游戏(可展开)hashtag

而且我们还截取了一些截图(4bit 可用):

🦥 微调 GLM-4.7-Flash

Unsloth 现在支持对 GLM-4.7-Flash 进行微调,不过你需要使用 transformers v5。30B 模型无法放入免费的 Colab GPU;不过,你可以使用我们的 notebook。GLM-4.7-Flash 的 16 位 LoRA 微调将使用大约 60GB VRAM:

circle-exclamation

在微调 MoE 时,最好不要微调路由层,因此我们默认禁用了它。如果你想保留其推理能力(可选),可以使用直接回答和思维链示例的混合。请至少使用 75% 推理25% 非推理 的数据集,让模型保留其推理能力。

🦙Llama-server 服务与部署

要将 GLM-4.7-Flash 部署到生产环境,我们使用 llama-server 在一个新的终端中,例如通过 tmux,使用以下命令部署模型:

然后在一个新的终端中,在执行 pip install openai之后,执行:

它将输出

💻 vLLM 中的 GLM-4.7-Flash

你现在可以使用我们新的 FP8 动态量化arrow-up-right 版本模型进行高性能且快速的推理。首先从 nightly 安装 vLLM:

然后启动 Unsloth 的动态 FP8 版本arrow-up-right 模型。我们启用了 FP8 以将 KV 缓存内存占用减少 50%,并在 4 张 GPU 上运行。如果你只有 1 张 GPU,请使用 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 或者移除此参数。要禁用 FP8,请移除 --quantization fp8 --kv-cache-dtype fp8

然后你可以通过 OpenAI API 调用已部署的模型:

vLLM GLM-4.7-Flash 推测解码

我们发现使用 GLM 4.7 Flash 的 MTP(多 token 预测)模块会使生成吞吐量从 1 个 B200 上的 13,000 tokens 降到 1,300 tokens!(慢 10 倍) 在 Hopper 上,希望应该没问题。

在 1xB200 上仅有 1,300 tokens/s 吞吐量(每个用户解码 130 tokens/s)

以及在 1xB200 上 13,000 tokens/s 吞吐量(每个用户仍为 130 token/s 解码)

🔨使用 GLM-4.7-Flash 进行工具调用

Tool Calling Guide 以了解如何进行工具调用的更多细节。在一个新终端中(如果使用 tmux,请使用 CTRL+B+D),我们创建一些工具,例如添加两个数字、执行 Python 代码、执行 Linux 函数,以及更多:

然后我们使用下面的函数(复制并粘贴后执行),它们会自动解析函数调用,并为任何模型调用 OpenAI 端点:

在通过以下方式启动 GLM-4.7-Flash 之后 llama-server 像在 GLM-4.7-Flash 或参见 Tool Calling Guide 了解更多详情后,我们就可以进行一些工具调用:

GLM 4.7 的数学运算工具调用

用于执行生成的 Python 代码的工具调用,适用于 GLM-4.7-Flash

基准测试

GLM-4.7-Flash 是除 AIME 25 之外所有基准测试中表现最好的 30B 模型。

基准
GLM-4.7-Flash
Qwen3-30B-A3B-Thinking-2507
GPT-OSS-20B

AIME 25

91.6

85.0

91.7

GPQA

75.2

73.4

71.5

LCB v6

64.0

66.0

61.0

HLE

14.4

9.8

10.9

SWE-bench Verified

59.2

22.0

34.0

τ²-Bench

79.5

49.0

47.7

BrowseComp

42.8

2.29

28.3

最后更新于

这有帮助吗?