zGLM-5: ローカルで実行するためのガイド

Z.ai による新しい GLM-5 モデルをローカルデバイスで実行しましょう!

GLM-5はZ.aiの最新の推論モデルで、より強力なコーディング、エージェント、チャット性能を提供し、 GLM-4.7より優れており、長いコンテキスト推論のために設計されています。Humanity's Last Exam での50.4%(+7.6%)、BrowseComp 75.9%(+8.4%)、Terminal-Bench-2.0 61.1%(+28.3%)などのベンチマークで性能が向上しています。

フルの744Bパラメータ(40Bアクティブ)モデルは 200Kのコンテキスト ウィンドウを持ち、28.5Tトークンで事前学習されています。フルGLM-5モデルは 1.65TB のディスク容量を必要としますが、Unsloth Dynamic 2-bit GGUFはサイズを 241GB (-85%)に削減し、動的 1-bitは176GB(-89%)です: GLM-5-GGUFarrow-up-right

すべてのアップロードはUnslothを使用しています Dynamic 2.0 はSOTAの量子化性能のために使用されています — したがって1ビットでは重要なレイヤーが8または16ビットにアップキャストされています。Z.aiがUnslothにデイゼロアクセスを提供してくれたことに感謝します。

⚙️ 使用ガイド

2ビット動的量子化 UD-IQ2_XXS は 241GB のディスク容量を使用します - これは直接 256GBの統合メモリ搭載Macに収まり、また 1x24GBカードと256GBのRAM でMoEオフロードを使用しても良好に動作します。 1ビット 量子化は180GBのRAMに収まり、8ビットは805GBのRAMを必要とします。

circle-check

推奨設定

用途ごとに異なる設定を使用してください:

デフォルト設定(ほとんどのタスク)
SWEベンチ検証済み

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

max new tokens = 131072

max new tokens = 16384

repeat penalty = 無効または1.0

repeat penalty = 無効または1.0

  • Min_P = 0.01 (llama.cppのデフォルトは0.05)

  • 最大コンテキストウィンドウ: 202,752.

  • マルチターンのエージェンティックタスク(τ²-BenchおよびTerminal Bench 2)では、Preserved Thinkingモードをオンにしてください。

GLM-5チュートリアルを実行:

✨ llama.cppで実行

1

最新の llama.cpp ここのGitHubarrow-up-rightで入手してください。以下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF もしGPUがない、またはCPU推論のみを行いたい場合は。

2

もし直接モデルをロードするために llama.cpp を使いたいなら、以下のようにできます:(:IQ2_XXS)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使って llama.cpp に特定の場所へ保存するよう強制できます。モデルは最大200Kのコンテキスト長しか持たないことを忘れないでください。

一般的な指示 に従ってください ユースケース:

一般的な指示 ツール呼び出し用 ユースケース:

3

モデルをダウンロードする( pip install huggingface_hub hf_transfer をインストールした後)。 UD-Q2_K_XL (動的2ビット量子化)または他の量子化バージョン、例えば UD-Q4_K_XL などを選択できます。私たちは サイズと精度のバランスを取るために2ビット動的量子化の使用を UD-Q2_K_XL 推奨します。ダウンロードが止まる場合は、次を参照してください Hugging Face Hub、XET デバッグ

4

CPUスレッド数のために --threads 32 を編集できます、 コンテキスト長のために --ctx-size 16384 GPUオフロードするレイヤー数のために --n-gpu-layers 2

--seed 3407

🦙 Llama-serverのサービングとOpenAIのcompletionライブラリ 本番環境でGLM-5をデプロイするために、私たちは llama-server

--port 8001 次に新しいターミナルで、pip install openai

print(completion.choices[0].message.content)

💻 * **自己衝突回避**:このコードは、単純なチュートリアルによくある「尾スキップ」ロジックにより、食べ物を食べた直後にスネークが誤って自分自身を食べるのを防ぎます。

vLLMデプロイメント

uv pip install --force-reinstall numba FP8 KVキャッシュを無効にしてメモリ使用量を50%削減するには、次を削除してください

--speculative-config.num_speculative_tokens 1 \

🔨base_url = openai_api_base,

GLM 5によるツール呼び出し Tool Calling Guide 詳細なツール呼び出し方法については、

以下の関数(コピーして貼り付けて実行)を使用すると、関数呼び出しを自動的に解析して任意のモデルに対してOpenAIエンドポイントを呼び出します:

GLM 5 を起動した後、 本番環境でGLM-5をデプロイするために、私たちは のように GLM-5 または参照してください Tool Calling Guide 詳細については、ツール呼び出しを行うことができます。

📊 ベンチマーク

以下で表形式のベンチマークをさらに確認できます:

ベンチマーク
GLM-5
GLM-4.7
DeepSeek-V3.2
Kimi K2.5
Claude Opus 4.5
Gemini 3 Pro
GPT-5.2 (xhigh)

HLE

30.5

24.8

25.1

31.5

28.4

37.2

35.4

HLE(ツール使用)

50.4

42.8

40.8

51.8

43.4*

45.8*

45.5*

AIME 2026 I

92.7

92.9

92.7

92.5

93.3

90.6

-

HMMT 2025年11月

96.9

93.5

90.2

91.1

91.7

93.0

97.1

IMOAnswerBench

82.5

82.0

78.3

81.8

78.5

83.3

86.3

GPQA-Diamond

86.0

85.7

82.4

87.6

87.0

91.9

92.4

SWE-bench 検証済み

77.8

73.8

73.1

76.8

80.9

76.2

80.0

SWE-bench 多言語

73.3

66.7

70.2

73.0

77.5

65.0

72.0

Terminal-Bench 2.0 (Terminus 2)

56.2 / 60.7 †

41.0

39.3

50.8

59.3

54.2

54.0

Terminal-Bench 2.0 (Claude Code)

56.2 / 61.1 †

32.8

46.4

-

57.9

-

-

CyberGym

43.2

23.5

17.3

41.3

50.6

39.9

-

BrowseComp

62.0

52.0

51.4

60.6

37.0

37.8

-

BrowseComp(コンテキスト管理付き)

75.9

67.5

67.6

74.9

67.8

59.2

65.8

BrowseComp-Zh

72.7

66.6

65.0

62.3

62.4

66.8

76.1

τ²-Bench

89.7

87.4

85.3

80.2

91.6

90.7

85.5

MCP-Atlas(公開セット)

67.8

52.0

62.2

63.8

65.2

66.6

68.0

Tool-Decathlon

38.0

23.8

35.2

27.8

43.5

36.4

46.3

Vending Bench 2

$4,432.12

$2,376.82

$1,034.00

$1,198.46

$4,967.06

$5,478.16

$3,591.33

最終更新

役に立ちましたか?