zGLM-4.7-Flash: ローカルでの実行方法

GLM-4.7-Flash をローカルで実行およびファインチューニングしましょう!

GLM-4.7-Flash は Z.ai の新しいローカル展開向け 30B MoE 推論モデルで、コーディング、エージェンティックなワークフロー、チャットにおいて最高クラスの性能を発揮します。約 36 億のパラメータを使用し、200K のコンテキストをサポートし、SWE-Bench、GPQA、推論/チャットベンチマークでトップを走っています。

GLM-4.7-Flash は次で動作します 24GB RAM/VRAM/統一メモリ(フルプレシジョンでは 32GB)で、Unsloth によるファインチューニングが可能です。vLLM で GLM 4.7 Flash を実行するには、こちらを参照してください GLM-4.7-Flash

circle-check

実行チュートリアルファインチューニング

GLM-4.7-Flash を実行するための GGUF: unsloth/GLM-4.7-Flash-GGUFarrow-up-right

⚙️ 使用ガイド

最高のパフォーマンスを得るには、ダウンロードする量子化モデルファイルのサイズを合計利用可能メモリ(VRAM + システムRAM)が上回っていることを確認してください。満たしていない場合、llama.cpp は SSD/HDD オフローディングで動作しますが、推論は遅くなります。

Z.ai チームと相談した結果、彼らの GLM-4.7 サンプリングパラメータの使用を推奨します:

デフォルト設定(ほとんどのタスク)
Terminal Bench、SWE Bench 検証済み

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

repeat penalty = 無効または 1.0

repeat penalty = 無効または 1.0

  • 一般的なユースケースの場合: --temp 1.0 --top-p 0.95

  • ツールコーリングの場合: --temp 0.7 --top-p 1.0

  • llama.cpp を使う場合は、次を設定してください --min-p 0.01 (llama.cpp のデフォルトは 0.05 です)

  • 場合によっては、ユースケースに最適な数値を試行する必要があります。

circle-exclamation
  • 最大コンテキストウィンドウ: 202,752

🖥️ GLM-4.7-Flash を実行する

ユースケースに応じて異なる設定を使用する必要があります。モデルアーキテクチャ(例えば gpt-oss)が 128 で割り切れない次元を持つと、一部が低ビットに量子化できないため、いくつかの GGUF が同程度のサイズになることがあります。

このガイドでは 4 ビットを使用するため、約 18GB の RAM/統一メモリが必要です。最高のパフォーマンスのために少なくとも 4 ビット精度を使用することを推奨します。

circle-exclamation

Llama.cpp チュートリアル(GGUF):

llama.cpp での実行手順(ほとんどのデバイスに合わせて 4 ビットを使います):

1

最新のものを入手してください llama.cppGitHub はこちらarrow-up-rightからビルド手順に従うこともできます。次を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPU を持っていない、または CPU 推論のみを行いたい場合は。

2

Hugging Face から直接プルできます。RAM/VRAM に応じてコンテキストを 200K まで増やせます。

また Z.ai 推奨の GLM-4.7 サンプリングパラメータを試すこともできます:

  • 一般的なユースケースの場合: --temp 1.0 --top-p 0.95

  • ツールコーリングの場合: --temp 0.7 --top-p 1.0

  • リピートペナルティを無効にすることを忘れないでください!

以下は 一般的な使用法 ユースケース:

以下は tool-calling ユースケース:

3

(pip install huggingface_hub をインストールした後に)モデルを次でダウンロードします: pip install huggingface_hub)。次のいずれかを選べます UD-Q4_K_XL または他の量子化バージョン。ダウンロードが止まる場合は、次を参照してください Hugging Face Hub、XET デバッグ

4

その後、会話モードでモデルを実行します:

また、必要に応じて コンテキストウィンドウ を調整してください(最大まで) 202752

反復やループの削減

circle-check

これにより、Z.ai 推奨のパラメータを使用して優れた結果を得られるようになりました:

  • 一般的なユースケースの場合: --temp 1.0 --top-p 0.95

  • ツールコーリングの場合: --temp 0.7 --top-p 1.0

  • llama.cpp を使う場合は、次を設定してください --min-p 0.01 (llama.cpp のデフォルトは 0.05 です)

  • リピートペナルティを無効にすることを忘れないでください!あるいは次を設定してください --repeat-penalty 1.0

以下を追加しました 「scoring_func": "sigmoid"config.json をメインモデル用に — 参照してくださいarrow-up-right.

circle-exclamation

🐦UD-Q4_K_XL を使った Flappy Bird の例

例として、UD-Q4_K_XL を使用して次のような長い会話を行いました: ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :

結果として次の Flappy Bird ゲームを HTML 形式でレンダリングしました:

chevron-rightHTML の Flappy Bird ゲーム(展開可能)hashtag

そしていくつかスクリーンショットを撮りました(4bitで動作します):

🦥 GLM-4.7-Flash のファインチューニング

Unsloth は now GLM-4.7-Flash のファインチューニングをサポートします が、ただし次を使用する必要があります transformers v5。30B モデルは無料の Colab GPU には収まりません;ただし、当社のノートブックを使用できます。GLM-4.7-Flash の 16-bit LoRA ファインチューニングは約 60GB VRAM:

circle-exclamation

MoE のファインチューニングでは、ルーターレイヤーをファインチューニングするのはあまり良い考えではないため、デフォルトで無効にしました。推論能力を維持したい場合(任意)、直接回答とチェーン・オブ・ソート(思考の連鎖)の例を混ぜて使用できます。少なくとも 75% 推論(reasoning)25% 非推論(non-reasoning) をデータセットに含めてモデルが推論能力を保持するようにしてください。

🦙Llama-server のサービングとデプロイ

GLM-4.7-Flash を本番展開するには、我々は次を使用します llama-server 新しいターミナルで(例えば tmux 経由で)、次のようにモデルをデプロイします:

次に新しいターミナルで、 pip install openaiを行った後、次を実行します:

これは次を出力します

💻 vLLM における GLM-4.7-Flash

今すぐ我々の新しい FP8 Dynamic quantarrow-up-right をプレミアムで高速な推論のためにモデルに使用できます。まず nightly から vLLM をインストールしてください:

次にサーブします Unsloth の動的 FP8 バージョンarrow-up-right のモデルを。FP8 を有効にして KV キャッシュのメモリ使用量を 50% 削減し、4 GPU 上での動作を可能にしました。GPU が 1 台しかない場合は、次を使用してください CUDA_VISIBLE_DEVICES='0' そして次を設定します --tensor-parallel-size 1 またはこの引数を削除してください。FP8 を無効にするには、次を削除します --quantization fp8 --kv-cache-dtype fp8

その後、OpenAI API 経由でサーブされたモデルを呼び出すことができます:

vLLM GLM-4.7-Flash の Speculative Decoding

GLM 4.7 Flash の MTP(multi token prediction)モジュールを使用すると、1 台の B200 での生成スループットが 13,000 トークンから 1,300 トークンに低下することを確認しました!(10倍遅い)Hopper では問題ないはずです。

1xB200 でのスループットはわずか 1,300 トークン/秒(ユーザーごとのデコードは 130 トークン/秒)

そして 1xB200 でのスループットは 13,000 トークン/秒(それでもユーザーごとのデコードは 130 トークン/秒)

🔨GLM-4.7-Flash によるツール呼び出し

詳細については次を参照してください Tool Calling Guide ツール呼び出しの方法についての詳細はここを参照してください。新しいターミナルで(tmux を使用している場合は CTRL+B+D を使って)、2つの数値の加算、Python コードの実行、Linux 機能の実行など多くのツールを作成します:

その後、以下の関数を使用します(コピーして貼り付けて実行)これらは関数呼び出しを自動で解析し、任意のモデルの OpenAI エンドポイントを呼び出します:

GLM-4.7-Flash を起動した後、 llama-server のように、 GLM-4.7-Flash または詳細は次を参照してください Tool Calling Guide 詳細については、次のようにいくつかのツール呼び出しを実行できます:

GLM 4.7 用の数学演算のためのツール呼び出し

GLM-4.7-Flash 用に生成された Python コードを実行するためのツール呼び出し

ベンチマーク

GLM-4.7-Flash は AIME 25 を除くすべてのベンチマークで最も高性能な 30B モデルです。

ベンチマーク
GLM-4.7-Flash
Qwen3-30B-A3B-Thinking-2507
GPT-OSS-20B

AIME 25

91.6

85.0

91.7

GPQA

75.2

73.4

71.5

LCB v6

64.0

66.0

61.0

HLE

14.4

9.8

10.9

SWE-bench Verified

59.2

22.0

34.0

τ²-Bench

79.5

49.0

47.7

BrowseComp

42.8

2.29

28.3

最終更新

役に立ちましたか?