zGLM-5:ローカルでの実行方法ガイド

Z.ai の新しい GLM-5 モデルを自分のローカルデバイスで実行しましょう!

GLM-5はZ.aiの最新の推論モデルで、より強力なコーディング、エージェント、チャット性能を提供します(対象: GLM-4.7)。長いコンテキスト推論のために設計されており、Humanity's Last Examで50.4%(+7.6%)、BrowseCompで75.9%(+8.4%)、Terminal-Bench-2.0で61.1%(+28.3%)などのベンチマークで性能が向上します。

フルの7440億パラメータ(アクティブ40B)モデルは 200Kコンテキスト のウィンドウを持ち、28.5Tトークンで事前学習されています。フルGLM-5モデルには 1.65TB のディスク容量を必要としますが、Unsloth Dynamic 2-bit GGUFはサイズを 241GB (-85%)が必要で、動的 1ビットは176GB(-89%)です: GLM-5-GGUFarrow-up-right

すべてのアップロードはUnslothを使用しています Dynamic 2.0 は最先端の量子化性能向けです — したがって1ビットでは重要なレイヤーが8または16ビットにアップキャストされています。day zeroアクセスを提供してくれたZ.aiに感謝します。

⚙️ 使用ガイド

2ビット動的量子化のUD-IQ2_XXSは 241GB のディスク空間を使用します — これは直接 256GB統合メモリのMacに収まり、 1枚の24GBカードと256GBのRAM でMoEオフロードを使う場合にも良好に動作します。なお、 1ビット 量子化は180GBのRAMに収まり、8ビットは805GBのRAMを必要とします。

circle-check

推奨設定

ユースケースごとに設定を分けてください:

デフォルト設定(ほとんどのタスク)
SWEベンチ検証済み

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

max new tokens = 131072

max new tokens = 16384

repeat penalty = 無効 または 1.0

repeat penalty = 無効 または 1.0

  • Min_P = 0.01 (llama.cppのデフォルトは0.05)

  • 最大コンテキストウィンドウ: 202,752.

  • マルチターンのエージェントタスク(τ²-BenchおよびTerminal Bench 2)では、Preserved Thinkingモードをオンにしてください。

GLM-5チュートリアルを実行:

✨ llama.cppで実行する

1

最新の llama.cpp GitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

2

直接モデルを読み込むために llama.cpp モデルを直接ロードするには以下を実行できます:(:IQ2_XXS)は量子化タイプです。Hugging Face経由(項目3)でもダウンロード可能です。これは ollama run に類似しています。使用してください export LLAMA_CACHE="folder" で強制的に llama.cpp 特定の場所に保存するためのものです。モデルは最大で200Kのコンテキスト長しか持たないことを忘れないでください。

次に従ってください(用途別): 一般的な指示 ユースケース:

次に従ってください(用途別): ツール呼び出し ユースケース:

3

(以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。量子化バージョンとして選べます UD-Q2_K_XL (動的2ビット量子化)や他の量子化バージョン(例えば UD-Q4_K_XL )を選択できます。私たちは )の使用を推奨します。私たちは2ビット動的量子化を推奨します UD-Q2_K_XL はサイズと精度のバランスをとるためです.

4

次の --threads 32 でCPUスレッド数を編集できます、 --ctx-size 16384 でコンテキスト長を、 --n-gpu-layers 2 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。

🦙 Llama-serverの配信 & OpenAIのcompletionライブラリ

GLM-5をプロダクションにデプロイするために、我々は次を使用します llama-server を使用します。新しいターミナルで例えば tmux を使い、次でモデルをデプロイします:

その後、新しいターミナルで、次を実行した後に: pip install openai、次を行います:

すると次のようなスネークゲームの例が得られます:

💻 vLLMデプロイ

Z.aiのFP8版モデルをvLLM経由で配信できます。860GB以上のVRAMが必要なので、8xH200(141x8 = 1128GB)が最低推奨です。8xB200も良好に動作します。まずはvllmのnightlyをインストールしてください:

FP8 KVキャッシュを無効にして(メモリ使用量を50%削減)、次を削除してください: --kv-cache-dtype fp8

その後、OpenAI API経由で配信モデルを呼び出すことができます:

🔨GLM 5でのツール呼び出し

詳細については Tool Calling Guide を参照してください。新しい端末で(tmuxを使用している場合はCTRL+B+Dを使用)、2つの数を足す、Pythonコードを実行する、Linuxコマンドを実行するなど多くのツールを作成します:

次に以下の関数を使用します(コピー&ペーストして実行)。これらは関数呼び出しを自動的に解析し、任意のモデルのためにOpenAIエンドポイントを呼び出します:

GLM 5を起動した後(via ...) llama-server のように)、 GLM-5 または詳細は Tool Calling Guide 詳細については、いくつかのツール呼び出しを行うことができます。

📊 ベンチマーク

ベンチマークの表は以下をご覧ください:

ベンチマーク
GLM-5
GLM-4.7
DeepSeek-V3.2
Kimi K2.5
Claude Opus 4.5
Gemini 3 Pro
GPT-5.2 (xhigh)

HLE

30.5

24.8

25.1

31.5

28.4

37.2

35.4

HLE(ツール使用時)

50.4

42.8

40.8

51.8

43.4*

45.8*

45.5*

AIME 2026 I

92.7

92.9

92.7

92.5

93.3

90.6

-

HMMT 2025年11月

96.9

93.5

90.2

91.1

91.7

93.0

97.1

IMOAnswerBench

82.5

82.0

78.3

81.8

78.5

83.3

86.3

GPQA-Diamond

86.0

85.7

82.4

87.6

87.0

91.9

92.4

SWE-bench 検証済み

77.8

73.8

73.1

76.8

80.9

76.2

80.0

SWE-bench 多言語

73.3

66.7

70.2

73.0

77.5

65.0

72.0

Terminal-Bench 2.0 (Terminus 2)

56.2 / 60.7 †

41.0

39.3

50.8

59.3

54.2

54.0

Terminal-Bench 2.0 (Claude Code)

56.2 / 61.1 †

32.8

46.4

-

57.9

-

-

CyberGym

43.2

23.5

17.3

41.3

50.6

39.9

-

BrowseComp

62.0

52.0

51.4

60.6

37.0

37.8

-

BrowseComp(コンテキスト管理あり)

75.9

67.5

67.6

74.9

67.8

59.2

65.8

BrowseComp-Zh

72.7

66.6

65.0

62.3

62.4

66.8

76.1

τ²-Bench

89.7

87.4

85.3

80.2

91.6

90.7

85.5

MCP-Atlas(公開セット)

67.8

52.0

62.2

63.8

65.2

66.6

68.0

Tool-Decathlon

38.0

23.8

35.2

27.8

43.5

36.4

46.3

Vending Bench 2

$4,432.12

$2,376.82

$1,034.00

$1,198.46

$4,967.06

$5,478.16

$3,591.33

最終更新

役に立ちましたか?