GLM-5: ローカルで実行する方法ガイド
Z.ai の新しい GLM-5 モデルを自分のローカルデバイスで実行しましょう!
GLM-5はZ.aiの最新の推論モデルで、より強力なコーディング、エージェント、およびチャット性能を提供します。 GLM-4.7、長文コンテキスト推論向けに設計されています。Humanity's Last Examで50.4%(+7.6%)、BrowseCompで75.9%(+8.4%)、Terminal-Bench-2.0で61.1%(+28.3%)などのベンチマークで性能が向上しています。
フルの7440億パラメータ(アクティブ40B)モデルは、 200Kのコンテキスト ウィンドウを持ち、285兆トークンで事前学習されています。フルGLM-5モデルには 1.65TB のディスク容量を必要としますが、Unsloth Dynamic 2-bit GGUFはサイズを 241GB (-85%)、および動的 1ビットは176GB(-89%): GLM-5-GGUF
すべてのアップロードはUnslothを使用しています Dynamic 2.0 —最先端の量子化性能のために。したがって1ビットでは重要なレイヤーが8または16ビットにアップキャストされています。日付初日にUnslothにアクセスを提供してくれたZ.aiに感謝します。
⚙️ 使用ガイド
2ビットの動的量子化 UD-IQ2_XXS は、 241GB のディスクスペースを使用します — これは直接 256GBのユニファイドメモリを搭載したMacに収まります、また、 1x24GBカードと256GBのRAM でMoEオフロードを使う場合にもよく機能します。 1ビット 量子化は180GBのRAMに収まり、8ビットは805GBのRAMを必要とします。
最高のパフォーマンスのために、利用可能な総メモリ(VRAM + システムRAM)がダウンロードしようとしている量子化モデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cppはSSD/HDDオフロードで動作できますが、推論は遅くなります。
推奨設定
用途ごとに異なる設定を使用してください:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
最大新規トークン = 131072
最大新規トークン = 16384
リピートペナルティ = 無効 または 1.0
リピートペナルティ = 無効 または 1.0
Min_P = 0.01(llama.cppのデフォルトは0.05)最大コンテキストウィンドウ:
202,752.マルチターンのエージェンシー的タスク(τ²-BenchおよびTerminal Bench 2)の場合は、Preserved Thinkingモードをオンにしてください。
GLM-5チュートリアルを実行する:
✨ llama.cppで実行する
最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。
もし直接 llama.cpp モデルを直接ロードするには、以下を実行できます:(:IQ2_XXS)は量子化タイプです。Hugging Face(ポイント3)経由でもダウンロードできます。これは、 ollama run に類似しています。 使用してください export LLAMA_CACHE="folder" llama.cpp 特定の場所に保存するためのものです。モデルは最大で200Kのコンテキスト長しか持たないことを忘れないでください。
以下に従ってください: 一般的な指示 ユースケース:
以下に従ってください: ツールコール ユースケース:
モデルをダウンロードするには(をインストールした後) モデルをダウンロードするには( を選択できます。 サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を (動的2ビット量子化)や他の量子化バージョンのような、 UD-Q4_K_XL Q4_K_XL 当社の2ビット動的量子化を使用することを推奨します。 サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を UD-Q2_K_XLダウンロードが止まった場合は、次を参照してください: Hugging Face Hub、XET デバッグ
--include "*UD-Q2_K_XL*" # 動的1ビットの場合は "*UD-TQ1_0*" を使用 次の --threads 32 はCPUスレッドの数、 --ctx-size 16384 はコンテキスト長、 --n-gpu-layers 2
🦙 Llama-serverのサービングとOpenAIのcompletionライブラリ
GLM-5を本番運用にデプロイするには、私たちは次を使用します: return messages 新しいターミナルで例えば tmux を使い、次でモデルをデプロイします:
その後、新しいターミナルで、を実行した後に: その後、OpenAIのPythonライブラリを使用します(次を行ってください:
すると、以下のような蛇ゲームの例が得られます:

💻 vLLMデプロイメント
Z.aiのFP8バージョンのモデルをvLLM経由で提供できます。860GB以上のVRAMが必要なため、8xH200(141x8 = 1128GB)が最低推奨です。8xB200でも良好に動作します。まず、vllm nightlyをインストールしてください:
FP8 KVキャッシュを無効にして(メモリ使用量を50%削減)、次を削除してください: --kv-cache-dtype fp8
その後、OpenAI APIを介してサーブされたモデルを呼び出すことができます:
🔨GLM 5によるツールコーリング
print(completion.choices[0].message.content) Tool Calling Guide GLM 4.7でのツール呼び出し
"description": "The Python code to run",
GLM 5を起動した後、 return messages GLM 4.7を GLM-5 llama-server Tool Calling Guide 詳細については、その後いくつかのツールコールを行うことができます。
📊 ベンチマーク
以下で表形式のベンチマークをさらに確認できます:

HLE
30.5
24.8
25.1
31.5
28.4
37.2
35.4
HLE(ツールあり)
50.4
42.8
40.8
51.8
43.4*
45.8*
45.5*
AIME 2026 I
92.7
92.9
92.7
92.5
93.3
90.6
-
HMMT 2025年11月
96.9
93.5
90.2
91.1
91.7
93.0
97.1
IMOAnswerBench
82.5
82.0
78.3
81.8
78.5
83.3
86.3
GPQA-Diamond
86.0
85.7
82.4
87.6
87.0
91.9
92.4
SWE-bench 検証済み
77.8
73.8
73.1
76.8
80.9
76.2
80.0
SWE-bench 多言語
73.3
66.7
70.2
73.0
77.5
65.0
72.0
Terminal-Bench 2.0(Terminus 2)
56.2 / 60.7 †
41.0
39.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0(Claude Code)
56.2 / 61.1 †
32.8
46.4
-
57.9
-
-
CyberGym
43.2
23.5
17.3
41.3
50.6
39.9
-
BrowseComp
62.0
52.0
51.4
60.6
37.0
37.8
-
BrowseComp(コンテキスト管理あり)
75.9
67.5
67.6
74.9
67.8
59.2
65.8
BrowseComp-Zh
72.7
66.6
65.0
62.3
62.4
66.8
76.1
τ²-Bench
89.7
87.4
85.3
80.2
91.6
90.7
85.5
MCP-Atlas(公開セット)
67.8
52.0
62.2
63.8
65.2
66.6
68.0
Tool-Decathlon
38.0
23.8
35.2
27.8
43.5
36.4
46.3
Vending Bench 2
$4,432.12
$2,376.82
$1,034.00
$1,198.46
$4,967.06
$5,478.16
$3,591.33
最終更新
役に立ちましたか?

