zGLM-5: ローカルで実行する方法ガイド

Z.ai の新しい GLM-5 モデルを自分のローカルデバイスで実行しましょう!

GLM-5はZ.aiの最新の推論モデルで、より強力なコーディング、エージェント、およびチャット性能を提供します。 GLM-4.7、長文コンテキスト推論向けに設計されています。Humanity's Last Examで50.4%(+7.6%)、BrowseCompで75.9%(+8.4%)、Terminal-Bench-2.0で61.1%(+28.3%)などのベンチマークで性能が向上しています。

フルの7440億パラメータ(アクティブ40B)モデルは、 200Kのコンテキスト ウィンドウを持ち、285兆トークンで事前学習されています。フルGLM-5モデルには 1.65TB のディスク容量を必要としますが、Unsloth Dynamic 2-bit GGUFはサイズを 241GB (-85%)、および動的 1ビットは176GB(-89%): GLM-5-GGUFarrow-up-right

すべてのアップロードはUnslothを使用しています Dynamic 2.0 —最先端の量子化性能のために。したがって1ビットでは重要なレイヤーが8または16ビットにアップキャストされています。日付初日にUnslothにアクセスを提供してくれたZ.aiに感謝します。

⚙️ 使用ガイド

2ビットの動的量子化 UD-IQ2_XXS は、 241GB のディスクスペースを使用します — これは直接 256GBのユニファイドメモリを搭載したMacに収まります、また、 1x24GBカードと256GBのRAM でMoEオフロードを使う場合にもよく機能します。 1ビット 量子化は180GBのRAMに収まり、8ビットは805GBのRAMを必要とします。

circle-check

推奨設定

用途ごとに異なる設定を使用してください:

デフォルト設定(ほとんどのタスク)
SWEベンチ検証済み

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

最大新規トークン = 131072

最大新規トークン = 16384

リピートペナルティ = 無効 または 1.0

リピートペナルティ = 無効 または 1.0

  • Min_P = 0.01 (llama.cppのデフォルトは0.05)

  • 最大コンテキストウィンドウ: 202,752.

  • マルチターンのエージェンシー的タスク(τ²-BenchおよびTerminal Bench 2)の場合は、Preserved Thinkingモードをオンにしてください。

GLM-5チュートリアルを実行する:

✨ llama.cppで実行する

1

最新の llama.cpp GitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

2

もし直接 llama.cpp モデルを直接ロードするには、以下を実行できます:(:IQ2_XXS)は量子化タイプです。Hugging Face(ポイント3)経由でもダウンロードできます。これは、 ollama run に類似しています。 使用してください export LLAMA_CACHE="folder" llama.cpp 特定の場所に保存するためのものです。モデルは最大で200Kのコンテキスト長しか持たないことを忘れないでください。

以下に従ってください: 一般的な指示 ユースケース:

以下に従ってください: ツールコール ユースケース:

3

モデルをダウンロードするには(をインストールした後) モデルをダウンロードするには( を選択できます。 サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を (動的2ビット量子化)や他の量子化バージョンのような、 UD-Q4_K_XL Q4_K_XL 当社の2ビット動的量子化を使用することを推奨します。 サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を UD-Q2_K_XLダウンロードが止まった場合は、次を参照してください: Hugging Face Hub、XET デバッグ

4

--include "*UD-Q2_K_XL*" # 動的1ビットの場合は "*UD-TQ1_0*" を使用 次の --threads 32 はCPUスレッドの数、 --ctx-size 16384 はコンテキスト長、 --n-gpu-layers 2

🦙 Llama-serverのサービングとOpenAIのcompletionライブラリ

GLM-5を本番運用にデプロイするには、私たちは次を使用します: return messages 新しいターミナルで例えば tmux を使い、次でモデルをデプロイします:

その後、新しいターミナルで、を実行した後に: その後、OpenAIのPythonライブラリを使用します(次を行ってください:

すると、以下のような蛇ゲームの例が得られます:

💻 vLLMデプロイメント

Z.aiのFP8バージョンのモデルをvLLM経由で提供できます。860GB以上のVRAMが必要なため、8xH200(141x8 = 1128GB)が最低推奨です。8xB200でも良好に動作します。まず、vllm nightlyをインストールしてください:

FP8 KVキャッシュを無効にして(メモリ使用量を50%削減)、次を削除してください: --kv-cache-dtype fp8

その後、OpenAI APIを介してサーブされたモデルを呼び出すことができます:

🔨GLM 5によるツールコーリング

print(completion.choices[0].message.content) Tool Calling Guide GLM 4.7でのツール呼び出し

"description": "The Python code to run",

GLM 5を起動した後、 return messages GLM 4.7を GLM-5 llama-server Tool Calling Guide 詳細については、その後いくつかのツールコールを行うことができます。

📊 ベンチマーク

以下で表形式のベンチマークをさらに確認できます:

ベンチマーク
GLM-5
GLM-4.7
DeepSeek-V3.2
Kimi K2.5
Claude Opus 4.5
Gemini 3 Pro
GPT-5.2 (xhigh)

HLE

30.5

24.8

25.1

31.5

28.4

37.2

35.4

HLE(ツールあり)

50.4

42.8

40.8

51.8

43.4*

45.8*

45.5*

AIME 2026 I

92.7

92.9

92.7

92.5

93.3

90.6

-

HMMT 2025年11月

96.9

93.5

90.2

91.1

91.7

93.0

97.1

IMOAnswerBench

82.5

82.0

78.3

81.8

78.5

83.3

86.3

GPQA-Diamond

86.0

85.7

82.4

87.6

87.0

91.9

92.4

SWE-bench 検証済み

77.8

73.8

73.1

76.8

80.9

76.2

80.0

SWE-bench 多言語

73.3

66.7

70.2

73.0

77.5

65.0

72.0

Terminal-Bench 2.0(Terminus 2)

56.2 / 60.7 †

41.0

39.3

50.8

59.3

54.2

54.0

Terminal-Bench 2.0(Claude Code)

56.2 / 61.1 †

32.8

46.4

-

57.9

-

-

CyberGym

43.2

23.5

17.3

41.3

50.6

39.9

-

BrowseComp

62.0

52.0

51.4

60.6

37.0

37.8

-

BrowseComp(コンテキスト管理あり)

75.9

67.5

67.6

74.9

67.8

59.2

65.8

BrowseComp-Zh

72.7

66.6

65.0

62.3

62.4

66.8

76.1

τ²-Bench

89.7

87.4

85.3

80.2

91.6

90.7

85.5

MCP-Atlas(公開セット)

67.8

52.0

62.2

63.8

65.2

66.6

68.0

Tool-Decathlon

38.0

23.8

35.2

27.8

43.5

36.4

46.3

Vending Bench 2

$4,432.12

$2,376.82

$1,034.00

$1,198.46

$4,967.06

$5,478.16

$3,591.33

最終更新

役に立ちましたか?