GLM-5:如何本地运行指南
在你自己的本地设备上运行 Z.ai 的全新 GLM-5 模型!
GLM-5 是 Z.ai 最新的推理模型,在编码、代理和聊天性能上优于 GLM-4.7,并且针对长上下文推理进行了设计。在 Humanity's Last Exam、BrowseComp 和 Terminal-Bench-2.0 等基准测试上表现有所提升,分别达到 50.4%(+7.6%)、75.9%(+8.4%)和 61.1%(+28.3%)。
完整的 7440 亿参数(40B 激活)模型具有 200K 上下文 窗口,并在 28.5T token 上进行了预训练。完整的 GLM-5 模型需要 1.65TB 的磁盘空间,而 Unsloth 动态 2-bit GGUF 将大小减少到 241GB (-85%),以及动态 1-bit 为 176GB(-89%): GLM-5-GGUF
所有上传均使用 Unsloth Dynamic 2.0 用于 SOTA 量化性能 — 因此 1-bit 会将重要层上转换为 8 或 16 位。感谢 Z.ai 在第零天向 Unsloth 提供访问权限。
⚙️ 使用指南
2-bit 动态量化 UD-IQ2_XXS 使用 241GB 的磁盘空间 — 这可以直接放在一台 256GB 统一内存的 Mac上,并且在一台 1x24GB 显卡和 256GB 内存 并关闭 MoE 卸载时也能良好工作。该 1-bit 量化将适配于 180GB 内存,8-bit 需要 805GB 内存。
为获得最佳性能,请确保您可用的总内存(显存 + 系统内存)超过您下载的量化模型文件的大小。如果不足,llama.cpp 仍然可以通过 SSD/HDD 卸载运行,但推理会更慢。
推荐设置
针对不同用例使用不同设置:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
最大新令牌 = 131072
最大新令牌 = 16384
重复惩罚 = 禁用 或 1.0
重复惩罚 = 禁用 或 1.0
最小概率 P = 0.01(llama.cpp 的默认值是 0.05)最大上下文窗口:
202,752.对于多轮代理任务(τ²-Bench 和 Terminal Bench 2),请开启保留思考(Preserved Thinking)模式。
运行 GLM-5 教程:
✨ 在 llama.cpp 中运行
获取最新的 llama.cpp 在 此处的 GitHub。您也可以按照下面的构建说明进行。若 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果您没有 GPU 或仅想要在 CPU 上进行推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认启用。
如果您想直接使用 llama.cpp 直接加载模型,你可以按如下操作:(:IQ2_XXS) 是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 类似。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 以保存到特定位置。请记住模型的最大上下文长度仅为 200K。
按照此操作用于 通用指令 使用场景:
按照此操作用于 工具调用 使用场景:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。您可以选择 UD-Q2_K_XL (动态 2bit 量化)或其他量化版本比如 UD-Q4_K_XL 。我们 建议使用我们的 2bit 动态量化 UD-Q2_K_XL 以在大小和准确性之间取得平衡。如果下载卡住,请参见 Hugging Face Hub, XET 调试
您可以编辑 --threads 32 用于设置 CPU 线程数, --ctx-size 16384 用于上下文长度, --n-gpu-layers 2 用于指定将多少层卸载到 GPU。若 GPU 出现内存不足,请尝试调整它。若仅使用 CPU 推理,请移除此项。
🦙 Llama-server 服务与 OpenAI 的 completion 库
要将 GLM-5 部署到生产环境,我们使用 llama-server 在新终端(例如通过 tmux)中,通过以下命令部署模型:
然后在新终端中,执行 pip install openai,然后执行:
你将得到如下的贪吃蛇游戏示例:

💻 vLLM 部署
你现在可以通过 vLLM 提供 Z.ai 的 FP8 版本模型服务。你需要 860GB 或更多显存,因此至少推荐 8xH200(141x8 = 1128GB)。8xB200 运行良好。首先安装 vllm 夜间版:
要禁用 FP8 KV 缓存(可减少约 50% 的内存使用),移除 --kv-cache-dtype fp8
然后你可以通过 OpenAI API 调用该已部署模型:
🔨使用 GLM 5 的工具调用
GLM 4.7 的工具调用 Tool Calling Guide 请参阅
"required": ["code"],
在通过 llama-server llama-server GLM-5 启动 GLM 4.7 之后, Tool Calling Guide 启动 GLM 5 之后获取更多细节,我们接着可以进行一些工具调用。
📊 基准测试
你可以在下方以表格形式查看更多基准:

HLE
30.5
24.8
25.1
31.5
28.4
37.2
35.4
HLE(含工具)
50.4
42.8
40.8
51.8
43.4*
45.8*
45.5*
AIME 2026 I
92.7
92.9
92.7
92.5
93.3
90.6
-
HMMT 2025 年 11 月
96.9
93.5
90.2
91.1
91.7
93.0
97.1
IMOAnswerBench
82.5
82.0
78.3
81.8
78.5
83.3
86.3
GPQA-Diamond
86.0
85.7
82.4
87.6
87.0
91.9
92.4
SWE-bench 已验证
77.8
73.8
73.1
76.8
80.9
76.2
80.0
SWE-bench 多语言
73.3
66.7
70.2
73.0
77.5
65.0
72.0
Terminal-Bench 2.0(Terminus 2)
56.2 / 60.7 †
41.0
39.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0(Claude 代码)
56.2 / 61.1 †
32.8
46.4
-
57.9
-
-
CyberGym
43.2
23.5
17.3
41.3
50.6
39.9
-
BrowseComp
62.0
52.0
51.4
60.6
37.0
37.8
-
BrowseComp(含上下文管理)
75.9
67.5
67.6
74.9
67.8
59.2
65.8
BrowseComp-中文
72.7
66.6
65.0
62.3
62.4
66.8
76.1
τ²-Bench
89.7
87.4
85.3
80.2
91.6
90.7
85.5
MCP-Atlas(公开集)
67.8
52.0
62.2
63.8
65.2
66.6
68.0
Tool-Decathlon
38.0
23.8
35.2
27.8
43.5
36.4
46.3
Vending Bench 2
$4,432.12
$2,376.82
$1,034.00
$1,198.46
$4,967.06
$5,478.16
$3,591.33
最后更新于
这有帮助吗?

