GLM-5:本地运行指南
在您自己的本地设备上运行 Z.ai 的新 GLM-5 模型!
GLM-5 是 Z.ai 的最新推理模型,在编码、代理和对话性能上超越了 GLM-4.7,并专为长上下文推理而设计。在 Humanity's Last Exam(人类的最后考试)上提升至 50.4%(+7.6%)、BrowseComp 提升至 75.9%(+8.4%)以及 Terminal-Bench-2.0 提升至 61.1%(+28.3%)。
完整的 7440 亿参数(40B 活跃)模型拥有 200K 上下文 窗口,并在 28.5T 记号上进行了预训练。完整 GLM-5 模型需要 1.65TB 的磁盘空间,而 Unsloth Dynamic 2-bit GGUF 将大小减少到 241GB (-85%),并且动态 1-bit 为 176GB(-89%): GLM-5-GGUF
所有上传都使用 Unsloth Dynamic 2.0 以实现 SOTA 的量化性能——因此 1-bit 会将重要层提升为 8 或 16 位。感谢 Z.ai 在第零天就向 Unsloth 提供访问权限。
⚙️ 使用指南
2-bit 动态量化 UD-IQ2_XXS 使用 241GB 的磁盘空间——这可以直接适配在一台 256GB 统一内存的 Mac上,也能很好地在 1x24GB 显卡和 256GB 内存 并关闭 MoE 卸载时运行。 1-bit 量化将在 180GB 内存上运行,而 8-bit 需要 805GB 内存。
为获得最佳性能,请确保可用内存总和(显存 + 系统内存)超过您要下载的量化模型文件的大小。如果不满足,llama.cpp 仍可通过 SSD/HDD 卸载运行,但推理会更慢。
推荐设置
为不同用例使用不同设置:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
max new tokens = 131072
max new tokens = 16384
repeat penalty = disabled or 1.0
repeat penalty = disabled or 1.0
Min_P = 0.01(llama.cpp 的默认值为 0.05)最大上下文窗口:
202,752.对于多轮代理任务(τ²-Bench 和 Terminal Bench 2),请开启保留思考(Preserved Thinking)模式。
运行 GLM-5 教程:
✨ 在 llama.cpp 中运行
获取最新的 llama.cpp 在 GitHub 这里。你也可以按下面的构建说明操作。若要 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU 或只是想在 CPU 上推理。
如果你想直接使用 llama.cpp 来加载模型,可以按下面操作:(:IQ2_XXS)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。请记住模型最大只有 200K 的上下文长度。
按此用于 通用指令 用例:
按此用于 tool-calling 用例:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 UD-Q2_K_XL (动态 2bit 量化)或其他量化版本,例如 UD-Q4_K_XL 。我们 建议使用我们的 2bit 动态量化 UD-Q2_K_XL 以在大小和准确性之间取得平衡。如果下载卡住,请参见 Hugging Face Hub、XET 调试
你可以编辑 --threads 32 来设置 CPU 线程数, --ctx-size 16384 来设置上下文长度, --n-gpu-layers 2 来设置用于 GPU 卸载的层数。如果你的 GPU 内存不足,尝试调整它。若仅使用 CPU 推理则移除该项。
🦙 Llama-server 服务与 OpenAI 的 completion 库
要将 GLM-5 部署到生产环境,我们使用 llama-server 在新终端(例如通过 tmux)中,通过以下命令部署模型:
然后在另一个终端,在执行 pip install openai之后,运行:
你将得到下面的贪吃蛇游戏示例:

💻 vLLM 部署
你现在可以通过 vLLM 提供 Z.ai 的 FP8 版本模型。你需要 860GB 或更多的显存,因此至少推荐 8xH200(141x8 = 1128GB)。8xB200 也能良好运行。首先,安装 vllm nightly:
要禁用 FP8 KV Cache(可减少 50% 内存使用),移除 --kv-cache-dtype fp8
然后你可以通过 OpenAI API 调用该已部署模型:
🔨使用 GLM 5 的工具调用
详见 Tool Calling Guide 了解有关如何进行工具调用的更多详情。在新终端(若使用 tmux,请使用 CTRL+B+D)中,我们创建了一些工具,例如相加两个数、执行 Python 代码、执行 Linux 命令等:
然后我们使用下面的函数(复制、粘贴并执行),它们会自动解析函数调用并为任何模型调用 OpenAI 端点:
通过以下方式启动 GLM 5 之后, llama-server 就像在 GLM-5 或参见 Tool Calling Guide 以获取更多细节,然后我们可以进行一些工具调用。
📊 基准测试
您可以在下面以表格形式查看更多基准测试:

HLE
30.5
24.8
25.1
31.5
28.4
37.2
35.4
HLE(带工具)
50.4
42.8
40.8
51.8
43.4*
45.8*
45.5*
AIME 2026 I
92.7
92.9
92.7
92.5
93.3
90.6
-
HMMT 2025年11月
96.9
93.5
90.2
91.1
91.7
93.0
97.1
IMOAnswerBench
82.5
82.0
78.3
81.8
78.5
83.3
86.3
GPQA-Diamond
86.0
85.7
82.4
87.6
87.0
91.9
92.4
SWE-bench 已验证
77.8
73.8
73.1
76.8
80.9
76.2
80.0
SWE-bench 多语言
73.3
66.7
70.2
73.0
77.5
65.0
72.0
Terminal-Bench 2.0(Terminus 2)
56.2 / 60.7 †
41.0
39.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0(Claude 代码)
56.2 / 61.1 †
32.8
46.4
-
57.9
-
-
CyberGym
43.2
23.5
17.3
41.3
50.6
39.9
-
BrowseComp
62.0
52.0
51.4
60.6
37.0
37.8
-
BrowseComp(带上下文管理)
75.9
67.5
67.6
74.9
67.8
59.2
65.8
BrowseComp-中文
72.7
66.6
65.0
62.3
62.4
66.8
76.1
τ²-Bench
89.7
87.4
85.3
80.2
91.6
90.7
85.5
MCP-Atlas(公共集)
67.8
52.0
62.2
63.8
65.2
66.6
68.0
Tool-Decathlon
38.0
23.8
35.2
27.8
43.5
36.4
46.3
Vending Bench 2
$4,432.12
$2,376.82
$1,034.00
$1,198.46
$4,967.06
$5,478.16
$3,591.33
最后更新于
这有帮助吗?

