GLM-5: ローカルで実行するためのガイド
Z.ai による新しい GLM-5 モデルをローカルデバイスで実行しましょう!
GLM-5はZ.aiの最新の推論モデルで、より強力なコーディング、エージェント、チャット性能を提供し、 GLM-4.7より優れており、長いコンテキスト推論のために設計されています。Humanity's Last Exam での50.4%(+7.6%)、BrowseComp 75.9%(+8.4%)、Terminal-Bench-2.0 61.1%(+28.3%)などのベンチマークで性能が向上しています。
フルの744Bパラメータ(40Bアクティブ)モデルは 200Kのコンテキスト ウィンドウを持ち、28.5Tトークンで事前学習されています。フルGLM-5モデルは 1.65TB のディスク容量を必要としますが、Unsloth Dynamic 2-bit GGUFはサイズを 241GB (-85%)に削減し、動的 1-bitは176GB(-89%)です: GLM-5-GGUF
すべてのアップロードはUnslothを使用しています Dynamic 2.0 はSOTAの量子化性能のために使用されています — したがって1ビットでは重要なレイヤーが8または16ビットにアップキャストされています。Z.aiがUnslothにデイゼロアクセスを提供してくれたことに感謝します。
⚙️ 使用ガイド
2ビット動的量子化 UD-IQ2_XXS は 241GB のディスク容量を使用します - これは直接 256GBの統合メモリ搭載Macに収まり、また 1x24GBカードと256GBのRAM でMoEオフロードを使用しても良好に動作します。 1ビット 量子化は180GBのRAMに収まり、8ビットは805GBのRAMを必要とします。
最高の性能を得るには、利用可能な合計メモリ(VRAM + システムRAM)がダウンロードする量子化されたモデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cppはSSD/HDDオフロードで実行できますが、推論は遅くなります。
推奨設定
用途ごとに異なる設定を使用してください:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
max new tokens = 131072
max new tokens = 16384
repeat penalty = 無効または1.0
repeat penalty = 無効または1.0
Min_P = 0.01(llama.cppのデフォルトは0.05)最大コンテキストウィンドウ:
202,752.マルチターンのエージェンティックタスク(τ²-BenchおよびTerminal Bench 2)では、Preserved Thinkingモードをオンにしてください。
GLM-5チュートリアルを実行:
✨ llama.cppで実行
最新の llama.cpp を ここのGitHubで入手してください。以下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF もしGPUがない、またはCPU推論のみを行いたい場合は。
もし直接モデルをロードするために llama.cpp を使いたいなら、以下のようにできます:(:IQ2_XXS)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使って llama.cpp に特定の場所へ保存するよう強制できます。モデルは最大200Kのコンテキスト長しか持たないことを忘れないでください。
一般的な指示 に従ってください ユースケース:
一般的な指示 ツール呼び出し用 ユースケース:
モデルをダウンロードする( pip install huggingface_hub hf_transfer をインストールした後)。 UD-Q2_K_XL (動的2ビット量子化)または他の量子化バージョン、例えば UD-Q4_K_XL などを選択できます。私たちは サイズと精度のバランスを取るために2ビット動的量子化の使用を UD-Q2_K_XL 推奨します。ダウンロードが止まる場合は、次を参照してください Hugging Face Hub、XET デバッグ
CPUスレッド数のために --threads 32 を編集できます、 コンテキスト長のために --ctx-size 16384 GPUオフロードするレイヤー数のために --n-gpu-layers 2
--seed 3407
🦙 Llama-serverのサービングとOpenAIのcompletionライブラリ 本番環境でGLM-5をデプロイするために、私たちは llama-server
--port 8001 次に新しいターミナルで、pip install openai
print(completion.choices[0].message.content)

💻 * **自己衝突回避**:このコードは、単純なチュートリアルによくある「尾スキップ」ロジックにより、食べ物を食べた直後にスネークが誤って自分自身を食べるのを防ぎます。
vLLMデプロイメント
uv pip install --force-reinstall numba FP8 KVキャッシュを無効にしてメモリ使用量を50%削減するには、次を削除してください
--speculative-config.num_speculative_tokens 1 \
🔨base_url = openai_api_base,
GLM 5によるツール呼び出し Tool Calling Guide 詳細なツール呼び出し方法については、
以下の関数(コピーして貼り付けて実行)を使用すると、関数呼び出しを自動的に解析して任意のモデルに対してOpenAIエンドポイントを呼び出します:
GLM 5 を起動した後、 本番環境でGLM-5をデプロイするために、私たちは のように GLM-5 または参照してください Tool Calling Guide 詳細については、ツール呼び出しを行うことができます。
📊 ベンチマーク
以下で表形式のベンチマークをさらに確認できます:

HLE
30.5
24.8
25.1
31.5
28.4
37.2
35.4
HLE(ツール使用)
50.4
42.8
40.8
51.8
43.4*
45.8*
45.5*
AIME 2026 I
92.7
92.9
92.7
92.5
93.3
90.6
-
HMMT 2025年11月
96.9
93.5
90.2
91.1
91.7
93.0
97.1
IMOAnswerBench
82.5
82.0
78.3
81.8
78.5
83.3
86.3
GPQA-Diamond
86.0
85.7
82.4
87.6
87.0
91.9
92.4
SWE-bench 検証済み
77.8
73.8
73.1
76.8
80.9
76.2
80.0
SWE-bench 多言語
73.3
66.7
70.2
73.0
77.5
65.0
72.0
Terminal-Bench 2.0 (Terminus 2)
56.2 / 60.7 †
41.0
39.3
50.8
59.3
54.2
54.0
Terminal-Bench 2.0 (Claude Code)
56.2 / 61.1 †
32.8
46.4
-
57.9
-
-
CyberGym
43.2
23.5
17.3
41.3
50.6
39.9
-
BrowseComp
62.0
52.0
51.4
60.6
37.0
37.8
-
BrowseComp(コンテキスト管理付き)
75.9
67.5
67.6
74.9
67.8
59.2
65.8
BrowseComp-Zh
72.7
66.6
65.0
62.3
62.4
66.8
76.1
τ²-Bench
89.7
87.4
85.3
80.2
91.6
90.7
85.5
MCP-Atlas(公開セット)
67.8
52.0
62.2
63.8
65.2
66.6
68.0
Tool-Decathlon
38.0
23.8
35.2
27.8
43.5
36.4
46.3
Vending Bench 2
$4,432.12
$2,376.82
$1,034.00
$1,198.46
$4,967.06
$5,478.16
$3,591.33
最終更新
役に立ちましたか?

