GLM-5:ローカルでの実行方法ガイド
Z.ai の新しい GLM-5 モデルを自分のローカルデバイスで実行しましょう!
GLM-5はZ.aiの最新の推論モデルで、より強力なコーディング、エージェント、チャット性能を提供します(対象: GLM-4.7)。長いコンテキスト推論のために設計されており、Humanity's Last Examで50.4%(+7.6%)、BrowseCompで75.9%(+8.4%)、Terminal-Bench-2.0で61.1%(+28.3%)などのベンチマークで性能が向上します。
フルの7440億パラメータ(アクティブ40B)モデルは 200Kコンテキスト のウィンドウを持ち、28.5Tトークンで事前学習されています。フルGLM-5モデルには 1.65TB のディスク容量を必要としますが、Unsloth Dynamic 2-bit GGUFはサイズを 241GB (-85%)が必要で、動的 1ビットは176GB(-89%)です: GLM-5-GGUF
すべてのアップロードはUnslothを使用しています Dynamic 2.0 は最先端の量子化性能向けです — したがって1ビットでは重要なレイヤーが8または16ビットにアップキャストされています。day zeroアクセスを提供してくれたZ.aiに感謝します。
⚙️ 使用ガイド
2ビット動的量子化のUD-IQ2_XXSは 241GB のディスク空間を使用します — これは直接 256GB統合メモリのMacに収まり、 1枚の24GBカードと256GBのRAM でMoEオフロードを使う場合にも良好に動作します。なお、 1ビット 量子化は180GBのRAMに収まり、8ビットは805GBのRAMを必要とします。
必須ではありませんが、最高の性能を得るには、ダウンロードする量子化モデルのサイズとVRAM+RAMの合計が等しくなるようにしてください。そうでない場合でも、llama.cppではハードドライブ/SSDオフロードが機能しますが、推論は遅くなります。また、 --fit on を llama.cpp で使用して最大のGPU使用を自動的に有効にしてください!
推奨設定
ユースケースごとに設定を分けてください:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
max new tokens = 131072
max new tokens = 16384
repeat penalty = 無効 または 1.0
repeat penalty = 無効 または 1.0
Min_P = 0.01(llama.cppのデフォルトは0.05)最大コンテキストウィンドウ:
202,752.マルチターンのエージェントタスク(τ²-BenchおよびTerminal Bench 2)では、Preserved Thinkingモードをオンにしてください。
GLM-5チュートリアルを実行:
✨ llama.cppで実行する
最新の llama.cpp を GitHub で入手できます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。
直接モデルを読み込むために llama.cpp モデルを直接ロードするには以下を実行できます:(:IQ2_XXS)は量子化タイプです。Hugging Face経由(項目3)でもダウンロード可能です。これは ollama run に類似しています。使用してください export LLAMA_CACHE="folder" で強制的に llama.cpp 特定の場所に保存するためのものです。モデルは最大で200Kのコンテキスト長しか持たないことを忘れないでください。
次に従ってください(用途別): 一般的な指示 ユースケース:
次に従ってください(用途別): ツール呼び出し ユースケース:
(以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。量子化バージョンとして選べます UD-Q2_K_XL (動的2ビット量子化)や他の量子化バージョン(例えば UD-Q4_K_XL )を選択できます。私たちは )の使用を推奨します。私たちは2ビット動的量子化を推奨します UD-Q2_K_XL はサイズと精度のバランスをとるためです.
次の --threads 32 でCPUスレッド数を編集できます、 --ctx-size 16384 でコンテキスト長を、 --n-gpu-layers 2 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。
🦙 Llama-serverの配信 & OpenAIのcompletionライブラリ
GLM-5をプロダクションにデプロイするために、我々は次を使用します llama-server を使用します。新しいターミナルで例えば tmux を使い、次でモデルをデプロイします:
その後、新しいターミナルで、次を実行した後に: pip install openai、次を行います:
すると次のようなスネークゲームの例が得られます:

💻 vLLMデプロイ
Z.aiのFP8版モデルをvLLM経由で配信できます。860GB以上のVRAMが必要なので、8xH200(141x8 = 1128GB)が最低推奨です。8xB200も良好に動作します。まずはvllmのnightlyをインストールしてください:
FP8 KVキャッシュを無効にして(メモリ使用量を50%削減)、次を削除してください: --kv-cache-dtype fp8
その後、OpenAI API経由で配信モデルを呼び出すことができます:
🔨GLM 5でのツール呼び出し
詳細については Tool Calling Guide を参照してください。新しい端末で(tmuxを使用している場合はCTRL+B+Dを使用)、2つの数を足す、Pythonコードを実行する、Linuxコマンドを実行するなど多くのツールを作成します:
次に以下の関数を使用します(コピー&ペーストして実行)。これらは関数呼び出しを自動的に解析し、任意のモデルのためにOpenAIエンドポイントを呼び出します:
GLM 5を起動した後(via ...) llama-server のように)、 GLM-5 または詳細は Tool Calling Guide 詳細については、いくつかのツール呼び出しを行うことができます。
📊 ベンチマーク
ベンチマークの表は以下をご覧ください:

HLE
30.5
24.8
25.1
31.5
28.4
37.2
35.4
HLE(ツール使用時)
50.4
42.8
40.8
51.8
43.4*
45.8*
45.5*
AIME 2026 I
92.7
92.9
92.7
92.5
93.3
90.6
-
HMMT 2025年11月
96.9
93.5
90.2
91.1
91.7
93.0
97.1
IMOAnswerBench
82.5
82.0
78.3
81.8
78.5
83.3
86.3
GPQA-Diamond
86.0
85.7
82.4
87.6
87.0
91.9
92.4
SWE-bench 検証済み
77.8
73.8
73.1
76.8
80.9
76.2
80.0
SWE-bench 多言語
73.3
66.7
70.2
73.0
77.5
65.0
72.0
Terminal-Bench 2.0 (Terminus 2)
56.2 / 60.7 †
41.0
39.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0 (Claude Code)
56.2 / 61.1 †
32.8
46.4
-
57.9
-
-
CyberGym
43.2
23.5
17.3
41.3
50.6
39.9
-
BrowseComp
62.0
52.0
51.4
60.6
37.0
37.8
-
BrowseComp(コンテキスト管理あり)
75.9
67.5
67.6
74.9
67.8
59.2
65.8
BrowseComp-Zh
72.7
66.6
65.0
62.3
62.4
66.8
76.1
τ²-Bench
89.7
87.4
85.3
80.2
91.6
90.7
85.5
MCP-Atlas(公開セット)
67.8
52.0
62.2
63.8
65.2
66.6
68.0
Tool-Decathlon
38.0
23.8
35.2
27.8
43.5
36.4
46.3
Vending Bench 2
$4,432.12
$2,376.82
$1,034.00
$1,198.46
$4,967.06
$5,478.16
$3,591.33
最終更新
役に立ちましたか?

