GLM-4.7-Flash:如何在本地运行
在您的设备上本地运行并微调 GLM-4.7-Flash!
GLM-4.7-Flash 是 Z.ai 的新款 30B MoE 推理模型,旨在本地部署,在编码、代理式工作流程和聊天方面提供一流的性能。它使用约 3.6B 参数,支持 200K 上下文,并在 SWE-Bench、GPQA 以及推理/聊天基准测试中领先。
GLM-4.7-Flash 可在以下环境运行: 24GB 内存/显存/统一内存(全精度需 32GB),现在你也可以使用 Unsloth 进行微调。要在 vLLM 上运行 GLM 4.7 Flash,请参见 GLM-4.7-Flash
1 月 21 日更新: llama.cpp 修复了指定错误的一个 bug,错误地指定了 scoring_func(评分函数): "softmax" (应该是 "sigmoid")。这导致循环和输出质量差。我们已更新 GGUF 文件——请重新下载模型以获得更好的输出。
你现在可以使用 Z.ai 推荐的参数并获得很好的结果:
用于通用场景:
--temp 1.0 --top-p 0.95用于调用工具:
--temp 0.7 --top-p 1.0重复惩罚: 禁用它,或设置
--repeat-penalty 1.0
1 月 22 日:由于 CUDA 的 FA 修复已合并,推理更快了。
用于运行的 GLM-4.7-Flash GGUF: unsloth/GLM-4.7-Flash-GGUF
⚙️ 使用指南
为获得最佳性能,请确保可用内存总和(显存 + 系统内存)超过您要下载的量化模型文件的大小。如果不满足,llama.cpp 仍可通过 SSD/HDD 卸载运行,但推理会更慢。
与 Z.ai 团队沟通后,他们推荐使用他们的 GLM-4.7 采样参数:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
repeat penalty = disabled or 1.0
repeat penalty = disabled or 1.0
用于通用场景:
--temp 1.0 --top-p 0.95用于调用工具:
--temp 0.7 --top-p 1.0如果使用 llama.cpp,请设置
--min-p 0.01因为 llama.cpp 的默认值是 0.05有时你需要试验哪些数值最适合你的用例。
目前,我们 不建议 将此 GGUF 与 Ollama 一起运行, 因为可能存在聊天模板兼容性问题。该 GGUF 在 llama.cpp(或后端例如 LM Studio、Jan)上运行良好。
记得禁用重复惩罚!或者设置 --repeat-penalty 1.0
最大上下文窗口:
202,752
🖥️ 运行 GLM-4.7-Flash
根据你的用例需要使用不同设置。有些 GGUF 的大小最终相近,因为模型架构(例如 gpt-oss)的某些维度不能被 128 整除,因此部分无法量化为更低位数。
由于本指南使用 4 位,你将需要大约 18GB 的内存/统一内存。我们建议至少使用 4 位精度以获得最佳性能。
目前,我们 不建议 将此 GGUF 与 Ollama 一起运行, 因为可能存在聊天模板兼容性问题。该 GGUF 在 llama.cpp(或后端例如 LM Studio、Jan)上运行良好。
记得禁用重复惩罚!或者设置 --repeat-penalty 1.0
Llama.cpp 教程(GGUF):
在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):
获取最新的 llama.cpp 在 GitHub 这里。你也可以按下面的构建说明操作。若要 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU 或只是想在 CPU 上推理。
你可以直接从 Hugging Face 拉取。你可以根据内存/显存情况将上下文增加到 200K。
你也可以尝试 Z.ai 推荐的 GLM-4.7 采样参数:
用于通用场景:
--temp 1.0 --top-p 0.95用于调用工具:
--temp 0.7 --top-p 1.0记得禁用重复惩罚!
按此用于 通用指令 用例:
按此用于 tool-calling 用例:
通过以下方式下载模型(在安装 pip install huggingface_hub)之后。你可以选择 UD-Q4_K_XL 或其他量化版本。如果下载卡住,请参见 Hugging Face Hub、XET 调试
然后以对话模式运行模型:
此外,根据需要调整 上下文窗口(context window) ,最高可达 202752
➿减少重复和循环生成
1 月 21 日更新:llama.cpp 修复了一个错误,该错误将错误的 "scoring_func": "softmax" 写入配置,导致循环和差的输出(应为 sigmoid)。我们已更新 GGUF 文件。请重新下载模型以获得更好的输出。
这意味着你现在可以使用 Z.ai 推荐的参数并获得很好的结果:
用于通用场景:
--temp 1.0 --top-p 0.95用于调用工具:
--temp 0.7 --top-p 1.0如果使用 llama.cpp,请设置
--min-p 0.01因为 llama.cpp 的默认值是 0.05记得禁用重复惩罚!或者设置
--repeat-penalty 1.0
我们已添加 "scoring_func": "sigmoid" 改为 到 config.json 用于主模型 - 参见.
目前,我们 不建议 将此 GGUF 与 Ollama 一起运行, 因为可能存在聊天模板兼容性问题。该 GGUF 在 llama.cpp(或后端例如 LM Studio、Jan)上运行良好。
🐦使用 UD-Q4_K_XL 的 Flappy Bird 示例
作为示例,我们通过使用 UD-Q4_K_XL 进行了如下长对话,调用命令为: ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :
这生成了下面以 HTML 形式呈现的 Flappy Bird 游戏:
我们也截取了一些截图(4 位有效):


🦥 微调 GLM-4.7-Flash
Unsloth 现在支持对 GLM-4.7-Flash 进行微调,但你需要使用 transformers v5。该 30B 模型无法放入免费的 Colab GPU;不过你可以使用我们的笔记本。GLM-4.7-Flash 的 16 位 LoRA 微调将使用大约 60GB 显存:
在使用 A100 40GB 显存时你有时会遇到内存不足。你需要使用 H100 / A100 80GB 显存以获得更流畅的运行。
在对 MoE 进行微调时,通常不建议微调路由器层,因此我们默认禁用了它。如果你想保留其推理能力(可选),可以使用直接回答和思路链示例的混合。在数据集中至少使用 75% 的推理示例(reasoning) 和 25% 的非推理示例(non-reasoning) 以使模型保留其推理能力。
🦙 Llama-server 提供服务与部署
要将 GLM-4.7-Flash 部署到生产环境,我们使用 llama-server 在新终端(例如通过 tmux)中,通过以下命令部署模型:
然后在另一个终端,在执行 pip install openai之后,运行:
这将打印
💻 vLLM 中的 GLM-4.7-Flash
你现在可以使用我们的新 FP8 动态量化 模型以获得优质且快速的推理。首先从 nightly 安装 vLLM:
然后提供服务 Unsloth 的动态 FP8 版本 的模型。我们启用了 FP8,以将 KV 缓存内存使用量减少 50%,并在 4 张 GPU 上运行。如果只有 1 张 GPU,请使用 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 或移除该参数。要禁用 FP8,请移除 --quantization fp8 --kv-cache-dtype fp8
然后你可以通过 OpenAI API 调用该已部署模型:
⭐ vLLM GLM-4.7-Flash 预测性解码(Speculative Decoding)
我们发现使用 GLM 4.7 Flash 的 MTP(多 token 预测)模块会使生成吞吐量在 1 个 B200 上从 13,000 token 降到 1,300 token!(慢 10 倍)在 Hopper 上应该能好一些。
在 1xB200 上每秒仅 1,300 token 的吞吐量(每用户解码约 130 token/s)

而在 1xB200 上仍为每秒 13,000 token 的吞吐量(每用户解码仍为约 130 token/s)

🔨使用 GLM-4.7-Flash 的工具调用
详见 Tool Calling Guide 了解有关如何进行工具调用的更多详情。在新终端(若使用 tmux,请使用 CTRL+B+D)中,我们创建了一些工具,例如相加两个数、执行 Python 代码、执行 Linux 命令等:
然后我们使用下面的函数(复制、粘贴并执行),它们会自动解析函数调用并为任何模型调用 OpenAI 端点:
在通过以下方式启动 GLM-4.7-Flash 之后: llama-server 就像在 GLM-4.7-Flash 或参见 Tool Calling Guide 有关更多细节,我们随后可以进行一些工具调用:
用于 GLM 4.7 的数学运算工具调用

用于执行生成的 Python 代码的工具调用(GLM-4.7-Flash)

基准测试
GLM-4.7-Flash 是在所有基准测试中表现最好的 300 亿参数模型,除了 AIME 25。

最后更新于
这有帮助吗?

