GLM-5:本地运行指南
在您本地设备上运行由 Z.ai 发布的新 GLM-5 模型!
GLM-5 是 Z.ai 最新的推理模型,在编码、代理和聊天性能上优于 GLM-4.7,并且针对长上下文推理进行了设计。在 Humanity's Last Exam(人类最后的考试)上性能提升至 50.4%(+7.6%),BrowseComp 提升至 75.9%(+8.4%),Terminal-Bench-2.0 提升至 61.1%(+28.3%)。
完整的 744B 参数(40B 活跃)模型具有 200K 上下文 窗口,且在 28.5T 令牌上进行了预训练。完整的 GLM-5 模型需要 1.51TB 的磁盘空间,而 Unsloth Dynamic 2-bit GGUF 将大小减至 281GB (-81%),并且动态 1-bit 为 176GB(-88%): GLM-5-GGUF
所有上传均使用 Unsloth Dynamic 2.0 以获得 SOTA 的量化表现——因此 1-bit 会将重要层提升回 8 或 16 位。感谢 Z.ai 在第一天就为 Unsloth 提供访问权限。
⚙️ 使用指南
2-bit 动态量化 UD-Q2_K_XL 使用 281GB 的磁盘空间——这在 1x24GB 卡和 256GB 内存 以及 MoE 卸载的情况下运行良好。否则你可以使用 IQ2_M,它可以直接适配 256GB 的 Mac。
使用 --jinja 用于 llama.cpp 的量化——这会启用正确的模板!如果不使用 --jinja 并使用 --fit on 它会根据你的硬件自动调整 GGUF 的适配方式。
1-bit 量化可以适配在 1x 40GB GPU(MoE 层卸载到内存)的情况下运行。如果你还有额外 165GB 内存,预期速度约为 5 令牌/秒。建议至少有 205GB 内存来运行此 4-bit。为了获得最佳性能,你需要至少 205GB 的统一内存或 205GB 的 RAM+VRAM 组合以达到 5+ 令牌/秒。要了解如何提高生成速度并适配更长的上下文, 点击此处阅读.
虽然不是必须,但为获得最佳性能,请确保你的 VRAM + RAM 总和等于你所下载量化模型的大小。如果不够,llama.cpp 的硬盘/SSD 卸载也能工作,只是推理会更慢。还请使用 --fit on 在 llama.cpp 中自动启用最大化 GPU 使用!
推荐设置
针对不同用例使用不同设置。默认和多轮代理用例的推荐设置:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
max new tokens = 131072
max new tokens = 16384
repeat penalty = disabled or 1.0
repeat penalty = disabled or 1.0
使用
--jinja适用于 llama.cpp 变体。最大上下文窗口:
202,752.对于多轮代理任务(τ²-Bench 和 Terminal Bench 2),请开启保留思考模式(Preserved Thinking mode)。
运行 GLM-5 教程:
✨ 在 llama.cpp 中运行
获取最新的 llama.cpp 并且你 必须在 GitHub 这里上安装 PR 19460。你也可以按下面的构建说明操作。将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果你没有 GPU 或仅想使用 CPU 推理。
如果你想直接使用 llama.cpp 来加载模型,可以如下操作:(:Q2_K_XL)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到指定位置。请记住模型最多支持 200K 的上下文长度。
按此操作以获得 通用指令 用例:
按此操作以获得 tool-calling 用例:
使用 --fit on 以最大化利用你的 GPU 和 CPU。
可选地,尝试 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许你将所有非 MoE 层放在 1 个 GPU 上,从而提高生成速度。如果你有更多 GPU 容量,可以自定义正则表达式以适配更多层。
如果你有更多的 GPU 内存,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会卸载上投影和下投影的 MoE 层。
尝试 -ot ".ffn_(up)_exps.=CPU" 如果你有更多 GPU 内存。此项仅卸载上投影的 MoE 层。
最后通过卸载所有层来使用 -ot ".ffn_.*_exps.=CPU" 此方法使用最少的显存(VRAM)。
你也可以自定义正则表达式,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层开始卸载 gate、up 和 down MoE 层。
在安装 pip install huggingface_hub hf_transfer 之后,通过以下方式下载模型。你可以选择 UD-Q2_K_XL(动态 2-bit 量化)或其他量化版本,如 Q4_K_XL 。我们 建议使用我们的 2.7bit 动态量化 UD-Q2_K_XL 以在大小和准确性之间取得平衡.
你可以编辑 --threads 32 以设置 CPU 线程数, --ctx-size 16384 以设置上下文长度, --n-gpu-layers 2 以设置有多少层在 GPU 上卸载。如果你的 GPU 内存不足,请尝试调整它。如果仅使用 CPU 推理,则移除此项。
🦙 Llama-server 部署 & OpenAI 的 completion 库
要将 GLM-5 部署到生产环境,我们使用 llama-server 在新终端(例如使用 tmux)中,通过以下命令部署模型:
然后在新终端,在执行 pip install openai之后,执行:
你将得到如下示例的贪吃蛇游戏:

💻 vLLM 部署
你现在可以通过 vLLM 提供 Z.ai 的 FP8 版本模型。首先,通过 nightly 安装:
然后启动服务。如果你只有 1 块 GPU,使用 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 或移除该参数。要禁用 FP8,请移除 --quantization fp8 --kv-cache-dtype fp8
然后你可以通过 OpenAI API 调用该服务模型:
🔨使用 GLM 5 的工具调用
详见 Tool Calling Guide 以获取有关如何进行工具调用的更多细节。在新终端(如果使用 tmux,按 CTRL+B+D)中,我们创建一些工具,例如相加两个数字、执行 Python 代码、执行 Linux 函数等:
随后我们使用下面的函数(复制并粘贴并执行),这些函数会自动解析函数调用并为任何模型调用 OpenAI 端点:
通过以下方式启动 GLM 5 后, llama-server 就像在 GLM-5 或参见 Tool Calling Guide 了解更多细节,我们随后可以进行一些工具调用。
📊 基准测试
您可以在下面查看表格格式的更多基准测试:

HLE
30.5
24.8
25.1
31.5
28.4
37.2
35.4
HLE(带工具)
50.4
42.8
40.8
51.8
43.4*
45.8*
45.5*
AIME 2026 I
92.7
92.9
92.7
92.5
93.3
90.6
-
HMMT 2025 年 11 月
96.9
93.5
90.2
91.1
91.7
93.0
97.1
IMOAnswerBench
82.5
82.0
78.3
81.8
78.5
83.3
86.3
GPQA-Diamond
86.0
85.7
82.4
87.6
87.0
91.9
92.4
SWE-bench 已验证
77.8
73.8
73.1
76.8
80.9
76.2
80.0
SWE-bench 多语言
73.3
66.7
70.2
73.0
77.5
65.0
72.0
Terminal-Bench 2.0(Terminus 2)
56.2 / 60.7 †
41.0
39.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0(Claude Code)
56.2 / 61.1 †
32.8
46.4
-
57.9
-
-
CyberGym
43.2
23.5
17.3
41.3
50.6
39.9
-
BrowseComp
62.0
52.0
51.4
60.6
37.0
37.8
-
BrowseComp(带上下文管理)
75.9
67.5
67.6
74.9
67.8
59.2
65.8
BrowseComp-Zh
72.7
66.6
65.0
62.3
62.4
66.8
76.1
τ²-Bench
89.7
87.4
85.3
80.2
91.6
90.7
85.5
MCP-Atlas(公开集)
67.8
52.0
62.2
63.8
65.2
66.6
68.0
Tool-Decathlon
38.0
23.8
35.2
27.8
43.5
36.4
46.3
Vending Bench 2
$4,432.12
$2,376.82
$1,034.00
$1,198.46
$4,967.06
$5,478.16
$3,591.33
最后更新于
这有帮助吗?

