For the complete documentation index, see llms.txt. This page is also available as Markdown.

GLM-4.7-Flash: ローカル実行方法

GLM-4.7-Flashをデバイス上でローカル実行・ファインチューニングしましょう!

GLM-4.7-Flash は、ローカル展開向けに構築された Z.ai の新しい 30B MoE 推論モデルで、コーディング、エージェント的ワークフロー、チャットにおいてクラス最高の性能を発揮します。約 3.6B パラメータを使用し、200K コンテキストをサポートし、SWE-Bench、GPQA、推論/チャットのベンチマークで首位です。

GLM-4.7-Flash の動作環境は 24GB RAM/VRAM/統合メモリ(完全精度では 32GB)が必要で、現在は Unsloth でファインチューニングもできます。vLLM で GLM 4.7 Flash を実行する方法は GLM-4.7-Flash

こともできます。ファインチューニング

実行用の GLM-4.7-Flash GGUF: unsloth/GLM-4.7-Flash-GGUF

⚙️ 使用ガイド

最適な性能を得るには、利用可能な総メモリ(VRAM + システム RAM)が、ダウンロードする量子化済みモデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cpp は SSD/HDD オフローディング経由で実行できますが、推論は遅くなります。

Z.ai のチームと話した結果、彼らは GLM-4.7 のサンプリングパラメータを使うことを推奨しています:

デフォルト設定(ほとんどのタスク)
Terminal Bench、SWE Bench Verified

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

繰り返しペナルティ = 無効、または 1.0

繰り返しペナルティ = 無効、または 1.0

  • 一般的な用途では: --temp 1.0 --top-p 0.95

  • ツール呼び出しでは: --temp 0.7 --top-p 1.0

  • llama.cpp を使う場合は、 --min-p 0.01 を設定してください。llama.cpp のデフォルトは 0.05 です。

  • 用途に最適な数値を見つけるには、試行錯誤が必要になることがあります。

  • 最大コンテキストウィンドウ: 202,752

🖥️ GLM-4.7-Flash を実行

用途によって、異なる設定を使う必要があります。一部の GGUF は、モデルアーキテクチャ(たとえば gpt-oss)の次元が 128 で割り切れないため、サイズが近くなり、いくつかの部分を低ビットに量子化できません。

このガイドは 4-bit を使用するため、約 18GB の RAM/統合メモリが必要です。最高の性能を得るには、少なくとも 4-bit 精度の使用を推奨します。

🦥 Unsloth Studio ガイド

GLM-4.7-Flash は Unsloth Studioで実行およびファインチューニングできます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio を使えば、モデルをローカルで実行できます MacOS、Windows、Linux および:

1

Unslothをインストールする

ターミナルで実行:

MacOS、Linux、WSL:

Windows PowerShell:

2

Unsloth を起動

MacOS、Linux、WSL、Windows:

その後、 http://localhost:8888 をブラウザで開いてください。

3

で実行およびファインチューニングできます

初回起動時には、アカウントを保護し後で再度サインインするためのパスワードを作成する必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップできます。

その後、 Studio Chat タブで GLM-4.7-Flash を検索バーに入力し、希望するモデルと量子化版をダウンロードしてください。

4

GLM-4.7-Flash を実行

Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細は、 Unsloth Studio 推論ガイド.

Llama.cpp チュートリアル(GGUF):

llama.cpp で実行するための手順(ほとんどのデバイスに収まるよう 4-bit を使用します):

1

最新の llama.cppGitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスの場合、次を設定して -DGGML_CUDA=OFF その後は通常どおり続けてください - Metal サポートは既定で有効です。

2

Hugging Face から直接取得できます。RAM/VRAM に応じてコンテキストを 200K まで増やせます。

Z.ai 推奨の GLM-4.7 サンプリングパラメータも試せます:

  • 一般的な用途では: --temp 1.0 --top-p 0.95

  • ツール呼び出しでは: --temp 0.7 --top-p 1.0

  • 繰り返しペナルティを無効にするのを忘れないでください!

以下を参照してください: 一般向けの説明 ユースケース:

以下を参照してください: ツール呼び出し ユースケース:

3

モデルのダウンロード( pip install huggingface_hubのインストール後)。 UD-Q4_K_XL などの他の量子化版もあります。ダウンロードが止まる場合は、 Hugging Face Hub、XETデバッグ

4

その後、会話モードでモデルを実行します:

また、 コンテキストウィンドウ 必要に応じて、最大で 202752

反復とループの削減

つまり、Z.ai の推奨パラメータを使って、素晴らしい結果を得られるようになりました:

  • 一般的な用途では: --temp 1.0 --top-p 0.95

  • ツール呼び出しでは: --temp 0.7 --top-p 1.0

  • llama.cpp を使う場合は、 --min-p 0.01 を設定してください。llama.cpp のデフォルトは 0.05 です。

  • 繰り返しペナルティを無効にするのを忘れないでください! または、 --repeat-penalty 1.0

追加しました "scoring_func": "sigmoid"config.json をメインモデルに対して - 参照.

🐦UD-Q4_K_XL を使った Flappy Bird の例

例として、UD-Q4_K_XL を使って以下の長い会話を行いました ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :

その結果、HTML 形式で以下の Flappy Bird ゲームがレンダリングされました:

HTML の Flappy Bird ゲーム(展開可能)

そして、いくつかのスクリーンショットを撮りました(4bit でも動作します):

🦥 GLM-4.7-Flash のファインチューニング

Unsloth は現在 GLM-4.7-Flash のファインチューニングをサポートしていますが、 transformers v5を使用する必要があります。30B モデルは無料の Colab GPU には収まりませんが、ノートブックを利用できます。GLM-4.7-Flash の 16-bit LoRA ファインチューニングでは約 60GB の VRAM:

MoE のファインチューニングでは、ルーター層をファインチューニングするのはあまり良くない可能性があるため、デフォルトで無効にしています。推論能力を維持したい場合(任意)は、直接回答と chain-of-thought の例を混ぜて使えます。少なくとも 75% の推論 および 25% の非推論 をデータセットに含めて、モデルの推論能力を保持させてください。

🦙Llama-server のサービングとデプロイ

本番環境で GLM-4.7-Flash をデプロイするには、 llama-server を使用します。新しいターミナルで、たとえば tmux 経由で、次のようにモデルをデプロイします:

次に新しいターミナルで、 pip install openaiを実行した後、次を行います:

すると次を出力します

💻 vLLM における GLM-4.7-Flash

新しい FP8 Dynamic 量子化版 モデルの、高性能かつ高速な推論用です。まず nightly 版から vLLM をインストールしてください:

その後、 Unsloth の動的 FP8 版 モデルの。KV キャッシュのメモリ使用量を 50% 削減するために FP8 を有効にし、4 GPU で実行しています。GPU が 1 枚の場合は CUDA_VISIBLE_DEVICES='0' を使い、 --tensor-parallel-size 1 を使用するか、この引数を削除してください。FP8 を無効にするには、 --quantization fp8 --kv-cache-dtype fp8

その後、OpenAI API 経由で提供中のモデルを呼び出せます:

vLLM による GLM-4.7-Flash の推測デコード

GLM 4.7 Flash の MTP(マルチトークン予測)モジュールを使うと、生成スループットが 1 台の B200 で 13,000 トークンから 1,300 トークンへ低下することが分かりました! (10 倍遅い)Hopper では、うまくいくはずです。

1xB200 でスループットは 1,300 トークン/秒のみ(ユーザーごとのデコードは 130 トークン/秒)

そして 1xB200 でスループット 13,000 トークン/秒(それでもユーザーごとのデコードは 130 トークン/秒)

🔨GLM-4.7-Flash でのツール呼び出し

参照 Tool Calling Guide ツール呼び出しの方法の詳細については。新しい端末で(tmux を使っている場合は CTRL+B+D)、2つの数の加算、Python コードの実行、Linux 関数の実行など、いくつかのツールを作成します:

その後、以下の関数(コピーして貼り付けて実行)を使用します。これにより関数呼び出しが自動的に解析され、任意のモデルに対して OpenAI エンドポイントが呼び出されます:

次の方法で GLM-4.7-Flash を起動した後 llama-server 経由で起動した後、 GLM-4.7-Flash のように、または Tool Calling Guide を参照して詳細を確認すると、いくつかのツール呼び出しを行えます:

GLM 4.7 の数学演算用ツール呼び出し

GLM-4.7-Flash で生成した Python コードを実行するためのツール呼び出し

ベンチマーク

GLM-4.7-Flash は、AIME 25 を除くすべてのベンチマークで最も高性能な 30B モデルです。

ベンチマーク
GLM-4.7-Flash
Qwen3-30B-A3B-Thinking-2507
GPT-OSS-20B

AIME 25

91.6

85.0

91.7

GPQA

75.2

73.4

71.5

LCB v6

64.0

66.0

61.0

HLE

14.4

9.8

10.9

SWE-bench Verified

59.2

22.0

34.0

τ²-Bench

79.5

49.0

47.7

BrowseComp

42.8

2.29

28.3

最終更新

役に立ちましたか?