zGLM-5:本地运行指南

在您自己的本地设备上运行 Z.ai 的新 GLM-5 模型!

GLM-5 是 Z.ai 的最新推理模型,在编码、代理和对话性能上超越了 GLM-4.7,并专为长上下文推理而设计。在 Humanity's Last Exam(人类的最后考试)上提升至 50.4%(+7.6%)、BrowseComp 提升至 75.9%(+8.4%)以及 Terminal-Bench-2.0 提升至 61.1%(+28.3%)。

完整的 7440 亿参数(40B 活跃)模型拥有 200K 上下文 窗口,并在 28.5T 记号上进行了预训练。完整 GLM-5 模型需要 1.65TB 的磁盘空间,而 Unsloth Dynamic 2-bit GGUF 将大小减少到 241GB (-85%),并且动态 1-bit 为 176GB(-89%): GLM-5-GGUFarrow-up-right

所有上传都使用 Unsloth Dynamic 2.0 以实现 SOTA 的量化性能——因此 1-bit 会将重要层提升为 8 或 16 位。感谢 Z.ai 在第零天就向 Unsloth 提供访问权限。

⚙️ 使用指南

2-bit 动态量化 UD-IQ2_XXS 使用 241GB 的磁盘空间——这可以直接适配在一台 256GB 统一内存的 Mac上,也能很好地在 1x24GB 显卡和 256GB 内存 并关闭 MoE 卸载时运行。 1-bit 量化将在 180GB 内存上运行,而 8-bit 需要 805GB 内存。

circle-check

推荐设置

为不同用例使用不同设置:

默认设置(大多数任务)
SWE Bench 已验证

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

max new tokens = 131072

max new tokens = 16384

repeat penalty = disabled or 1.0

repeat penalty = disabled or 1.0

  • Min_P = 0.01 (llama.cpp 的默认值为 0.05)

  • 最大上下文窗口: 202,752.

  • 对于多轮代理任务(τ²-Bench 和 Terminal Bench 2),请开启保留思考(Preserved Thinking)模式。

运行 GLM-5 教程:

✨ 在 llama.cpp 中运行

1

获取最新的 llama.cpp GitHub 这里arrow-up-right。你也可以按下面的构建说明操作。若要 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU 或只是想在 CPU 上推理。

2

如果你想直接使用 llama.cpp 来加载模型,可以按下面操作:(:IQ2_XXS)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。请记住模型最大只有 200K 的上下文长度。

按此用于 通用指令 用例:

按此用于 tool-calling 用例:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 UD-Q2_K_XL (动态 2bit 量化)或其他量化版本,例如 UD-Q4_K_XL 。我们 建议使用我们的 2bit 动态量化 UD-Q2_K_XL 以在大小和准确性之间取得平衡。如果下载卡住,请参见 Hugging Face Hub、XET 调试

4

你可以编辑 --threads 32 来设置 CPU 线程数, --ctx-size 16384 来设置上下文长度, --n-gpu-layers 2 来设置用于 GPU 卸载的层数。如果你的 GPU 内存不足,尝试调整它。若仅使用 CPU 推理则移除该项。

🦙 Llama-server 服务与 OpenAI 的 completion 库

要将 GLM-5 部署到生产环境,我们使用 llama-server 在新终端(例如通过 tmux)中,通过以下命令部署模型:

然后在另一个终端,在执行 pip install openai之后,运行:

你将得到下面的贪吃蛇游戏示例:

💻 vLLM 部署

你现在可以通过 vLLM 提供 Z.ai 的 FP8 版本模型。你需要 860GB 或更多的显存,因此至少推荐 8xH200(141x8 = 1128GB)。8xB200 也能良好运行。首先,安装 vllm nightly:

要禁用 FP8 KV Cache(可减少 50% 内存使用),移除 --kv-cache-dtype fp8

然后你可以通过 OpenAI API 调用该已部署模型:

🔨使用 GLM 5 的工具调用

详见 Tool Calling Guide 了解有关如何进行工具调用的更多详情。在新终端(若使用 tmux,请使用 CTRL+B+D)中,我们创建了一些工具,例如相加两个数、执行 Python 代码、执行 Linux 命令等:

然后我们使用下面的函数(复制、粘贴并执行),它们会自动解析函数调用并为任何模型调用 OpenAI 端点:

通过以下方式启动 GLM 5 之后, llama-server 就像在 GLM-5 或参见 Tool Calling Guide 以获取更多细节,然后我们可以进行一些工具调用。

📊 基准测试

您可以在下面以表格形式查看更多基准测试:

基准
GLM-5
GLM-4.7
DeepSeek-V3.2
Kimi K2.5
Claude Opus 4.5
Gemini 3 Pro
GPT-5.2 (xhigh)

HLE

30.5

24.8

25.1

31.5

28.4

37.2

35.4

HLE(带工具)

50.4

42.8

40.8

51.8

43.4*

45.8*

45.5*

AIME 2026 I

92.7

92.9

92.7

92.5

93.3

90.6

-

HMMT 2025年11月

96.9

93.5

90.2

91.1

91.7

93.0

97.1

IMOAnswerBench

82.5

82.0

78.3

81.8

78.5

83.3

86.3

GPQA-Diamond

86.0

85.7

82.4

87.6

87.0

91.9

92.4

SWE-bench 已验证

77.8

73.8

73.1

76.8

80.9

76.2

80.0

SWE-bench 多语言

73.3

66.7

70.2

73.0

77.5

65.0

72.0

Terminal-Bench 2.0(Terminus 2)

56.2 / 60.7 †

41.0

39.3

50.8

59.3

54.2

54.0

Terminal-Bench 2.0(Claude 代码)

56.2 / 61.1 †

32.8

46.4

-

57.9

-

-

CyberGym

43.2

23.5

17.3

41.3

50.6

39.9

-

BrowseComp

62.0

52.0

51.4

60.6

37.0

37.8

-

BrowseComp(带上下文管理)

75.9

67.5

67.6

74.9

67.8

59.2

65.8

BrowseComp-中文

72.7

66.6

65.0

62.3

62.4

66.8

76.1

τ²-Bench

89.7

87.4

85.3

80.2

91.6

90.7

85.5

MCP-Atlas(公共集)

67.8

52.0

62.2

63.8

65.2

66.6

68.0

Tool-Decathlon

38.0

23.8

35.2

27.8

43.5

36.4

46.3

Vending Bench 2

$4,432.12

$2,376.82

$1,034.00

$1,198.46

$4,967.06

$5,478.16

$3,591.33

最后更新于

这有帮助吗?