zGLM-5:本地运行指南

在您本地设备上运行由 Z.ai 发布的新 GLM-5 模型!

GLM-5 是 Z.ai 最新的推理模型,在编码、代理和聊天性能上优于 GLM-4.7,并且针对长上下文推理进行了设计。在 Humanity's Last Exam(人类最后的考试)上性能提升至 50.4%(+7.6%),BrowseComp 提升至 75.9%(+8.4%),Terminal-Bench-2.0 提升至 61.1%(+28.3%)。

完整的 744B 参数(40B 活跃)模型具有 200K 上下文 窗口,且在 28.5T 令牌上进行了预训练。完整的 GLM-5 模型需要 1.51TB 的磁盘空间,而 Unsloth Dynamic 2-bit GGUF 将大小减至 281GB (-81%),并且动态 1-bit 为 176GB(-88%): GLM-5-GGUFarrow-up-right

所有上传均使用 Unsloth Dynamic 2.0 以获得 SOTA 的量化表现——因此 1-bit 会将重要层提升回 8 或 16 位。感谢 Z.ai 在第一天就为 Unsloth 提供访问权限。

⚙️ 使用指南

2-bit 动态量化 UD-Q2_K_XL 使用 281GB 的磁盘空间——这在 1x24GB 卡和 256GB 内存 以及 MoE 卸载的情况下运行良好。否则你可以使用 IQ2_M,它可以直接适配 256GB 的 Mac。

circle-info

使用 --jinja 用于 llama.cpp 的量化——这会启用正确的模板!如果不使用 --jinja 并使用 --fit on 它会根据你的硬件自动调整 GGUF 的适配方式。

1-bit 量化可以适配在 1x 40GB GPU(MoE 层卸载到内存)的情况下运行。如果你还有额外 165GB 内存,预期速度约为 5 令牌/秒。建议至少有 205GB 内存来运行此 4-bit。为了获得最佳性能,你需要至少 205GB 的统一内存或 205GB 的 RAM+VRAM 组合以达到 5+ 令牌/秒。要了解如何提高生成速度并适配更长的上下文, 点击此处阅读.

circle-check

推荐设置

针对不同用例使用不同设置。默认和多轮代理用例的推荐设置:

默认设置(大多数任务)
SWE 基准已验证

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

max new tokens = 131072

max new tokens = 16384

repeat penalty = disabled or 1.0

repeat penalty = disabled or 1.0

  • 使用 --jinja 适用于 llama.cpp 变体。

  • 最大上下文窗口: 202,752.

  • 对于多轮代理任务(τ²-Bench 和 Terminal Bench 2),请开启保留思考模式(Preserved Thinking mode)。

运行 GLM-5 教程:

✨ 在 llama.cpp 中运行

1

获取最新的 llama.cpp 并且你 必须在 GitHub 这里arrow-up-right上安装 PR 19460。你也可以按下面的构建说明操作。将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果你没有 GPU 或仅想使用 CPU 推理。

2

如果你想直接使用 llama.cpp 来加载模型,可以如下操作:(:Q2_K_XL)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到指定位置。请记住模型最多支持 200K 的上下文长度。

按此操作以获得 通用指令 用例:

按此操作以获得 tool-calling 用例:

circle-info

使用 --fit on 以最大化利用你的 GPU 和 CPU。

可选地,尝试 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许你将所有非 MoE 层放在 1 个 GPU 上,从而提高生成速度。如果你有更多 GPU 容量,可以自定义正则表达式以适配更多层。

如果你有更多的 GPU 内存,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会卸载上投影和下投影的 MoE 层。

尝试 -ot ".ffn_(up)_exps.=CPU" 如果你有更多 GPU 内存。此项仅卸载上投影的 MoE 层。

最后通过卸载所有层来使用 -ot ".ffn_.*_exps.=CPU" 此方法使用最少的显存(VRAM)。

你也可以自定义正则表达式,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层开始卸载 gate、up 和 down MoE 层。

3

在安装 pip install huggingface_hub hf_transfer 之后,通过以下方式下载模型。你可以选择 UD-Q2_K_XL(动态 2-bit 量化)或其他量化版本,如 Q4_K_XL 。我们 建议使用我们的 2.7bit 动态量化 UD-Q2_K_XL 以在大小和准确性之间取得平衡.

4

你可以编辑 --threads 32 以设置 CPU 线程数, --ctx-size 16384 以设置上下文长度, --n-gpu-layers 2 以设置有多少层在 GPU 上卸载。如果你的 GPU 内存不足,请尝试调整它。如果仅使用 CPU 推理,则移除此项。

🦙 Llama-server 部署 & OpenAI 的 completion 库

要将 GLM-5 部署到生产环境,我们使用 llama-server 在新终端(例如使用 tmux)中,通过以下命令部署模型:

然后在新终端,在执行 pip install openai之后,执行:

你将得到如下示例的贪吃蛇游戏:

💻 vLLM 部署

你现在可以通过 vLLM 提供 Z.ai 的 FP8 版本模型。首先,通过 nightly 安装:

然后启动服务。如果你只有 1 块 GPU,使用 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 或移除该参数。要禁用 FP8,请移除 --quantization fp8 --kv-cache-dtype fp8

然后你可以通过 OpenAI API 调用该服务模型:

🔨使用 GLM 5 的工具调用

详见 Tool Calling Guide 以获取有关如何进行工具调用的更多细节。在新终端(如果使用 tmux,按 CTRL+B+D)中,我们创建一些工具,例如相加两个数字、执行 Python 代码、执行 Linux 函数等:

随后我们使用下面的函数(复制并粘贴并执行),这些函数会自动解析函数调用并为任何模型调用 OpenAI 端点:

通过以下方式启动 GLM 5 后, llama-server 就像在 GLM-5 或参见 Tool Calling Guide 了解更多细节,我们随后可以进行一些工具调用。

📊 基准测试

您可以在下面查看表格格式的更多基准测试:

基准
GLM-5
GLM-4.7
DeepSeek-V3.2
Kimi K2.5
Claude Opus 4.5
Gemini 3 Pro
GPT-5.2 (xhigh)

HLE

30.5

24.8

25.1

31.5

28.4

37.2

35.4

HLE(带工具)

50.4

42.8

40.8

51.8

43.4*

45.8*

45.5*

AIME 2026 I

92.7

92.9

92.7

92.5

93.3

90.6

-

HMMT 2025 年 11 月

96.9

93.5

90.2

91.1

91.7

93.0

97.1

IMOAnswerBench

82.5

82.0

78.3

81.8

78.5

83.3

86.3

GPQA-Diamond

86.0

85.7

82.4

87.6

87.0

91.9

92.4

SWE-bench 已验证

77.8

73.8

73.1

76.8

80.9

76.2

80.0

SWE-bench 多语言

73.3

66.7

70.2

73.0

77.5

65.0

72.0

Terminal-Bench 2.0(Terminus 2)

56.2 / 60.7 †

41.0

39.3

50.8

59.3

54.2

54.0

Terminal-Bench 2.0(Claude Code)

56.2 / 61.1 †

32.8

46.4

-

57.9

-

-

CyberGym

43.2

23.5

17.3

41.3

50.6

39.9

-

BrowseComp

62.0

52.0

51.4

60.6

37.0

37.8

-

BrowseComp(带上下文管理)

75.9

67.5

67.6

74.9

67.8

59.2

65.8

BrowseComp-Zh

72.7

66.6

65.0

62.3

62.4

66.8

76.1

τ²-Bench

89.7

87.4

85.3

80.2

91.6

90.7

85.5

MCP-Atlas(公开集)

67.8

52.0

62.2

63.8

65.2

66.6

68.0

Tool-Decathlon

38.0

23.8

35.2

27.8

43.5

36.4

46.3

Vending Bench 2

$4,432.12

$2,376.82

$1,034.00

$1,198.46

$4,967.06

$5,478.16

$3,591.33

最后更新于

这有帮助吗?