GLM-5.1 - ローカル実行方法

Z.aiの新しいGLM-5.1モデルを自分のローカルデバイスで実行しましょう!

GLM-5.1 は Z.ai の新しいオープンモデルです。 GLM-5と比べて、コーディング、エージェント的なツール利用、推論、ロールプレイ、長期的なエージェントタスク、そして全体的なチャット品質が大幅に向上しています。

全 744B パラメータ(40B アクティブ)の GLM-5.1 モデルは 200K コンテキスト のコンテキストウィンドウを持ち、 1.65TB のディスク容量が必要です。Unsloth Dynamic 2-bit GGUF によりサイズは 220GB (-80%)、および動的 1-bit は 200GB(-85%)です: GLM-5.1-GGUF

すべてのアップロードは Unsloth Dynamic 2.0 SOTA の量子化性能のために、低ビットでは重要な層が 8 または 16-bit にアップキャストされています。day zero で Unsloth にアクセスを提供してくださった Z.ai に感謝します。

絶対に CUDA 13.2 ランタイムを任意の GGUF に対して使用しないでください。出力が不正確になります。

⚙️ 使用ガイド

中サイズの 2-bit ダイナミック量子化 UD-IQ2_M236GB のディスク容量を使用します。これはそのまま 256GB ユニファイドメモリ搭載 Mac を使用し、 1x24GB GPU および 256GB の RAM でも MoE オフローディングで良好に動作します。 1ビット の環境でうまく動作します。量子化版は 220GB の RAM に収まり、8-bit では 805GB の RAM が必要です。

推奨設定

用途ごとに異なる設定を使ってください:

デフォルト設定(ほとんどのタスク)
ターミナルベンチ

温度 = 1.0

温度 = 0.7

top_p = 0.95

top_p = 1.0

最大新規トークン数 = 131072

最大新規トークン数 = 16384

  • 最大コンテキストウィンドウ: 202,752.

  • GLM-5.1 では、思考はデフォルトで有効です。思考を無効にするには:

チャットテンプレート更新

GLM-5.1 は GLM-5 と同じアーキテクチャを採用しており、違うのは chat_template.jinja だけです。

  • Claude の検索ツールをサポートしています。 defer_loading=True を持つツールはシステムプロンプトから除外され、代わりにツール結果に表示されます。

  • 空の推論ブロック(<think></think>)を assistant メッセージで許可します。連続する assistant メッセージは、思考ありか思考なしのいずれか同じモードを維持する必要があります。

  • 全体として、GLM-5.1 は主にツールの露出、推論履歴の再構築、ツールメッセージのレンダリングを改善しています。

GLM-5.1 チュートリアルを実行:

今すぐ GLM-5.1 を llama.cpp および Unsloth Studio.

🦥 Unsloth Studio で実行

GLM-5.1 は今、 Unsloth Studioで実行できます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio を使えば、モデルをローカルで MacOS、Windows、Linux および:

1

Unslothをインストールする

ターミナルで実行:

MacOS、Linux、WSL:

Windows PowerShell:

2

Unsloth を起動

MacOS、Linux、WSL、Windows:

その後、 http://localhost:8888 をブラウザで開いてください。

3

GLM-5.1 を検索してダウンロード

初回起動時には、アカウントを保護し後で再度サインインするためのパスワードを作成する必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップできます。

を選択して UD-Q2_K_XL (動的2bit量子化)または次のような他の量子化版 UD-Q4_K_XL 私たちは 2bit dynamic quant を使うことを推奨します UD-Q2_K_XL サイズと精度のバランスを取るためです。ダウンロードが止まる場合は、 Hugging Face Hub、XETデバッグ

その後、 Studio Chat タブを開き、検索バーで GLM-5.1 を検索し、希望するモデルと量子化版をダウンロードできます。サイズが大きいためダウンロードには少し時間がかかるので、お待ちください。高速な推論を確保するには、 十分な RAM/VRAMを用意してください。そうでない場合でも推論は動作しますが、Unsloth は CPU にオフロードします。

4

GLM-5.1 を実行

Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細は、 Unsloth Studio 推論ガイド.

🦙 llama.cpp で実行

1

最新の llama.cpp GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスの場合、次を設定して -DGGML_CUDA=OFF その後は通常どおり続けてください - Metal サポートは既定で有効です。

2

もし llama.cpp を使ってモデルを直接読み込みたい場合は、以下のようにできます: (:IQ2_M)は量子化タイプです。Hugging Face からもダウンロードできます(3 番目の方法)。これは ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp 特定の場所に保存するためです。モデルの最大コンテキスト長は 200K であることを忘れないでください。

以下を参照してください: 一般向けの説明 ユースケース:

以下を参照してください: ツール呼び出し ユースケース:

3

モデルのダウンロード( pip install huggingface_hub hf_transfer のインストール後)。 UD-Q2_K_XL (動的2bit量子化)または次のような他の量子化版 UD-Q4_K_XL 私たちは 2bit dynamic quant を使うことを推奨します UD-Q2_K_XL サイズと精度のバランスを取るためです。ダウンロードが止まる場合は、 Hugging Face Hub、XETデバッグ

4

編集できます --threads 32 CPU スレッド数を --ctx-size 16384 コンテキスト長を --n-gpu-layers 2 GPU オフロードする層数を指定します。GPU のメモリ不足になる場合は調整してみてください。CPU のみで推論する場合は、これも削除してください。

🦙 Llama-server による提供と OpenAI の completion ライブラリ

GLM-5 を本番環境にデプロイするには、以下を使用します llama-server を使用します。新しいターミナルで、たとえば tmux 経由で、次のようにモデルをデプロイします:

次に新しいターミナルで、 pip install openaiを実行した後、次を行います:

その後、OpenAI API 経由で提供中のモデルを呼び出せます:

🔨GLM-5.1 でのツール呼び出し

参照 Tool Calling Guide ツール呼び出しの方法の詳細については。新しい端末で(tmux を使っている場合は CTRL+B+D)、2つの数の加算、Python コードの実行、Linux 関数の実行など、いくつかのツールを作成します:

その後、以下の関数(コピーして貼り付けて実行)を使用します。これにより関数呼び出しが自動的に解析され、任意のモデルに対して OpenAI エンドポイントが呼び出されます:

GLM 5.1 を llama-server 経由で起動した後、 GLM-5.1 のように、または Tool Calling Guide さらに詳しくは、いくつかのツール呼び出しを行えます。

📊 ベンチマーク

で起動した後は、以下で GLM-5.1 のベンチマークを表形式で確認できます:

ベンチマーク
GLM-5.1
GLM-5
Qwen3.6-Plus
Minimax M2.7
DeepSeek-V3.2
Kimi K2.5
Claude Opus 4.6
Gemini 3.1 Pro
GPT-5.4

HLE

31.0

30.5

28.8

28.0

25.1

31.5

36.7

45.0

39.8

HLE(ツール使用)

52.3

50.4

50.6

-

40.8

51.8

53.1*

51.4*

52.1*

AIME 2026

95.3

95.4

95.1

89.8

95.1

94.5

95.6

98.2

98.7

HMMT 2025年11月

94.0

96.9

94.6

81.0

90.2

91.1

96.3

94.8

95.8

HMMT 2026年2月

82.6

82.8

87.8

72.7

79.9

81.3

84.3

87.3

91.8

IMOAnswerBench

83.8

82.5

83.8

66.3

78.3

81.8

75.3

81.0

91.4

GPQA-Diamond

86.2

86.0

90.4

87.0

82.4

87.6

91.3

94.3

92.0

SWE-Bench Pro

58.4

55.1

56.6

56.2

-

53.8

57.3

54.2

57.7

NL2Repo

42.7

35.9

37.9

39.8

-

32.0

49.8

33.4

41.3

Terminal-Bench 2.0(Terminus-2)

63.5

56.2

61.6

-

39.3

50.8

65.4

68.5

-

Terminal-Bench 2.0(自己報告の最高値)

66.5(Claude Code)

56.2(Claude Code)

-

57.0(Claude Code)

46.4(Claude Code)

-

-

-

75.1 (Codex)

CyberGym

68.7

48.3

-

-

17.3

41.3

66.6

-

-

BrowseComp

68.0

62.0

-

-

51.4

60.6

-

-

-

BrowseComp(コンテキスト管理あり)

79.3

75.9

-

-

67.6

74.9

84.0

85.9

82.7

τ³-Bench

70.6

69.2

70.7

67.6

69.2

66.0

72.4

67.1

72.9

MCP-Atlas(公開セット)

71.8

69.2

74.1

48.8

62.2

63.8

73.8

69.2

67.2

Tool-Decathlon

40.7

38.0

39.8

46.3

35.2

27.8

47.2

48.8

54.6

Vending Bench 2

$5,634.00

$4,432.12

$5,114.87

-

$1,034.00

$1,198.46

$8,017.59

$911.21

$6,144.18

最終更新

役に立ちましたか?