zGLM-4.7-Flash: ローカル実行方法

GLM-4.7-Flash をお使いのデバイスでローカル実行・ファインチューニングしましょう!

GLM-4.7-Flash は、ローカル展開向けに構築された Z.ai の新しい 30B MoE 推論モデルで、コーディング、エージェント型ワークフロー、チャットにおいてクラス最高の性能を発揮します。約 3.6B のパラメータを使用し、200K のコンテキストをサポートし、SWE-Bench、GPQA、推論/チャットのベンチマークをリードします。

GLM-4.7-Flash は 24GB RAM/VRAM/統合メモリ上で動作します(完全精度では 32GB)。さらに、現在は Unsloth でファインチューニングできます。vLLM で GLM 4.7 Flash を実行する方法については、 GLM-4.7-Flash

circle-check

実行チュートリアルファインチューニング

実行する GLM-4.7-Flash GGUF: unsloth/GLM-4.7-Flash-GGUFarrow-up-right

⚙️ 使用ガイド

最高の性能を得るには、利用可能な総メモリ (VRAM + システム RAM) が、ダウンロードする量子化済みモデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cpp は SSD/HDD へのオフロードで実行できますが、推論は遅くなります。

Z.ai のチームと話した結果、彼らは GLM-4.7 のサンプリングパラメータを使うことを推奨しています:

デフォルト設定(ほとんどのタスク)
Terminal Bench、SWE Bench Verified

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

repeat penalty = 無効または 1.0

repeat penalty = 無効または 1.0

  • 一般用途では: --temp 1.0 --top-p 0.95

  • ツール呼び出しでは: --temp 0.7 --top-p 1.0

  • llama.cpp を使う場合は、次を設定してください --min-p 0.01 llama.cpp のデフォルトは 0.05 だからです

  • 場合によっては、自分のユースケースに最適な数値を試行錯誤する必要があります。

circle-exclamation
  • 最大コンテキストウィンドウ: 202,752

🖥️ GLM-4.7-Flash を実行

ユースケースに応じて、異なる設定を使用する必要があります。一部の GGUF は、モデルアーキテクチャ(たとえば gpt-oss)の次元が 128 で割り切れないため、サイズが近くなることがあります。その結果、一部はより低いビット数に量子化できません。

このガイドは 4-bit を使用しているため、約 18GB の RAM/統合メモリが必要です。最高の性能を得るには、少なくとも 4-bit 精度を使うことを推奨します。

circle-exclamation

Llama.cpp チュートリアル(GGUF):

llama.cpp で実行する手順(ほとんどのデバイスに収まるように 4 ビットを使用する点に注意):

1

最新の llama.cppGitHub こちらarrow-up-rightで入手してください。以下のビルド手順に従うこともできます。GPU がない、または CPU 推論のみを行いたい場合は、 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。 Apple Mac / Metal デバイス向けでは、 -DGGML_CUDA=OFF を設定してから通常どおり続けてください。Metal サポートはデフォルトで有効です。

2

Hugging Face から直接取得できます。RAM/VRAM が許す範囲でコンテキストを 200K まで増やせます。

Z.ai 推奨の GLM-4.7 サンプリングパラメータも試せます:

  • 一般用途では: --temp 1.0 --top-p 0.95

  • ツール呼び出しでは: --temp 0.7 --top-p 1.0

  • 繰り返しペナルティは無効化するのを忘れずに!

こちらに従ってください 一般的な指示 ユースケース:

こちらに従ってください ツール呼び出し ユースケース:

3

以下でモデルをダウンロードしてください(事前に pip install huggingface_hub)。 UD-Q4_K_XL または他の量子化版。ダウンロードが止まる場合は、 Hugging Face Hub、XET デバッグ

4

その後、会話モードでモデルを実行します:

また、必要に応じて コンテキストウィンドウ 必要に応じて、最大 202752

反復とループの削減

circle-check

つまり、Z.ai 推奨のパラメータを使って素晴らしい結果が得られるようになりました:

  • 一般用途では: --temp 1.0 --top-p 0.95

  • ツール呼び出しでは: --temp 0.7 --top-p 1.0

  • llama.cpp を使う場合は、次を設定してください --min-p 0.01 llama.cpp のデフォルトは 0.05 だからです

  • 繰り返しペナルティは忘れずに無効化してください!または次を設定してください --repeat-penalty 1.0

次を追加しました "scoring_func": "sigmoid"config.json メインモデル向けの を参照してくださいarrow-up-right.

circle-exclamation

🐦UD-Q4_K_XL を使った Flappy Bird の例

例として、私たちは UD-Q4_K_XL を使って次の長い会話を行いました。経由で ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :

その結果、次の HTML 形式の Flappy Bird ゲームがレンダリングされました:

chevron-rightHTML の Flappy Bird ゲーム(展開可能)hashtag

そして、いくつかスクリーンショットを撮りました(4bit で動作します):

🦥 GLM-4.7-Flash のファインチューニング

Unsloth は現在 GLM-4.7-Flash のファインチューニングをサポートしていますが、 transformers v5を使用する必要があります。30B モデルは無料の Colab GPU には収まりませんが、ノートブックを使用できます。GLM-4.7-Flash の 16-bit LoRA ファインチューニングでは約 60GB VRAM:

circle-exclamation

MoE のファインチューニングでは、ルーター層をファインチューニングするのはおそらく良い考えではないため、デフォルトで無効にしています。推論能力を維持したい場合(任意)は、直接回答と chain-of-thought の例を混ぜて使えます。少なくとも 75% を推論 および 25% を非推論 としてデータセットに含めると、モデルが推論能力を維持しやすくなります。

🦙Llama-server の提供とデプロイ

GLM-4.7-Flash を本番環境にデプロイするには、 llama-server を使用します。tmux 経由などで新しいターミナルを開き、以下でモデルをデプロイします:

その後、新しいターミナルで、 pip install openaiを実行した後、次を実行します:

これにより、次が出力されます

💻 vLLM における GLM-4.7-Flash

新しい FP8 Dynamic 量子化版arrow-up-right プレミアムで高速な推論のためのモデル。まず nightly 版から vLLM をインストールしてください:

次に serve します Unsloth のダイナミック FP8 版arrow-up-right モデル。KV キャッシュのメモリ使用量を 50% 削減するために FP8 を有効にし、4 GPU 上で動作させています。GPU が 1 枚の場合は、 CUDA_VISIBLE_DEVICES='0' を使い、 --tensor-parallel-size 1 を使用するか、この引数を削除してください。FP8 を無効にするには、 --quantization fp8 --kv-cache-dtype fp8

その後、OpenAI API 経由で提供中のモデルを呼び出せます:

vLLM GLM-4.7-Flash の Speculative Decoding

GLM 4.7 Flash の MTP(マルチトークン予測)モジュールを使うと、生成スループットが 1 台の B200 で 13,000 トークンから 1,300 トークンまで落ちることが分かりました!(10 倍遅い) Hopper では、おそらく問題ないはずです。

1xB200 でのスループットは 1,300 トークン/秒のみ(ユーザーあたりのデコードは 130 トークン/秒)

そして 1xB200 でのスループットは 13,000 トークン/秒(それでもユーザーあたりのデコードは 130 トークン/秒)

🔨GLM-4.7-Flash でのツール呼び出し

参照 Tool Calling Guide ツール呼び出しの方法の詳細について。新しいターミナルで(tmux を使っている場合は CTRL+B+D)、2つの数の加算、Python コードの実行、Linux 関数の実行など、いくつかのツールを作成します:

その後、以下の関数(コピーして貼り付けて実行)を使います。これにより関数呼び出しが自動的に解析され、どのモデルに対しても OpenAI エンドポイントが呼び出されます:

経由で GLM-4.7-Flash を起動した後 llama-server のように GLM-4.7-Flash または Tool Calling Guide さらに詳しく見ると、いくつかのツール呼び出しができます:

GLM 4.7 の数値演算用ツール呼び出し

GLM-4.7-Flash で生成された Python コードを実行するためのツール呼び出し

ベンチマーク

GLM-4.7-Flash は、AIME 25 を除くすべてのベンチマークで最高性能の 30B モデルです。

ベンチマーク
GLM-4.7-Flash
Qwen3-30B-A3B-Thinking-2507
GPT-OSS-20B

AIME 25

91.6

85.0

91.7

GPQA

75.2

73.4

71.5

LCB v6

64.0

66.0

61.0

HLE

14.4

9.8

10.9

SWE-bench Verified

59.2

22.0

34.0

τ²-Bench

79.5

49.0

47.7

BrowseComp

42.8

2.29

28.3

最終更新

役に立ちましたか?