GLM-4.7-Flash: ローカル実行方法
GLM-4.7-Flash をお使いのデバイスでローカル実行・ファインチューニングしましょう!
GLM-4.7-Flash は、ローカル展開向けに構築された Z.ai の新しい 30B MoE 推論モデルで、コーディング、エージェント型ワークフロー、チャットにおいてクラス最高の性能を発揮します。約 3.6B のパラメータを使用し、200K のコンテキストをサポートし、SWE-Bench、GPQA、推論/チャットのベンチマークをリードします。
GLM-4.7-Flash は 24GB RAM/VRAM/統合メモリ上で動作します(完全精度では 32GB)。さらに、現在は Unsloth でファインチューニングできます。vLLM で GLM 4.7 Flash を実行する方法については、 GLM-4.7-Flash
1月21日更新: llama.cpp 誤った scoring_func: "softmax" を指定していたバグを修正しました(正しくは "sigmoid"です)。これがループや品質の低い出力の原因になっていました。GGUF を更新したので、より良い出力を得るにはモデルを再ダウンロードしてください。
Z.ai 推奨のパラメータを使って、素晴らしい結果を得られるようになりました:
一般用途では:
--temp 1.0 --top-p 0.95ツール呼び出しでは:
--temp 0.7 --top-p 1.0繰り返しペナルティ: 無効化するか、次を設定してください
--repeat-penalty 1.0
1月22日:CUDA 向けの FA 修正がマージされたため、より高速な推論が利用可能になりました。
実行する GLM-4.7-Flash GGUF: unsloth/GLM-4.7-Flash-GGUF
⚙️ 使用ガイド
最高の性能を得るには、利用可能な総メモリ (VRAM + システム RAM) が、ダウンロードする量子化済みモデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cpp は SSD/HDD へのオフロードで実行できますが、推論は遅くなります。
Z.ai のチームと話した結果、彼らは GLM-4.7 のサンプリングパラメータを使うことを推奨しています:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
repeat penalty = 無効または 1.0
repeat penalty = 無効または 1.0
一般用途では:
--temp 1.0 --top-p 0.95ツール呼び出しでは:
--temp 0.7 --top-p 1.0llama.cpp を使う場合は、次を設定してください
--min-p 0.01llama.cpp のデフォルトは 0.05 だからです場合によっては、自分のユースケースに最適な数値を試行錯誤する必要があります。
現時点では、 推奨しません この GGUF を Ollama で実行することを。チャットテンプレートの互換性問題が起こる可能性があるためです。この GGUF は llama.cpp(または LM Studio、Jan などのバックエンド)上でうまく動作します。
繰り返しペナルティは忘れずに無効化してください!または次を設定してください --repeat-penalty 1.0
最大コンテキストウィンドウ:
202,752
🖥️ GLM-4.7-Flash を実行
ユースケースに応じて、異なる設定を使用する必要があります。一部の GGUF は、モデルアーキテクチャ(たとえば gpt-oss)の次元が 128 で割り切れないため、サイズが近くなることがあります。その結果、一部はより低いビット数に量子化できません。
このガイドは 4-bit を使用しているため、約 18GB の RAM/統合メモリが必要です。最高の性能を得るには、少なくとも 4-bit 精度を使うことを推奨します。
現時点では、 推奨しません この GGUF を Ollama で実行することを。チャットテンプレートの互換性問題が起こる可能性があるためです。この GGUF は llama.cpp(または LM Studio、Jan などのバックエンド)上でうまく動作します。
繰り返しペナルティは忘れずに無効化してください!または次を設定してください --repeat-penalty 1.0
Llama.cpp チュートリアル(GGUF):
llama.cpp で実行する手順(ほとんどのデバイスに収まるように 4 ビットを使用する点に注意):
最新の llama.cpp を GitHub こちらで入手してください。以下のビルド手順に従うこともできます。GPU がない、または CPU 推論のみを行いたい場合は、 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。 Apple Mac / Metal デバイス向けでは、 -DGGML_CUDA=OFF を設定してから通常どおり続けてください。Metal サポートはデフォルトで有効です。
Hugging Face から直接取得できます。RAM/VRAM が許す範囲でコンテキストを 200K まで増やせます。
Z.ai 推奨の GLM-4.7 サンプリングパラメータも試せます:
一般用途では:
--temp 1.0 --top-p 0.95ツール呼び出しでは:
--temp 0.7 --top-p 1.0繰り返しペナルティは無効化するのを忘れずに!
こちらに従ってください 一般的な指示 ユースケース:
こちらに従ってください ツール呼び出し ユースケース:
以下でモデルをダウンロードしてください(事前に pip install huggingface_hub)。 UD-Q4_K_XL または他の量子化版。ダウンロードが止まる場合は、 Hugging Face Hub、XET デバッグ
その後、会話モードでモデルを実行します:
また、必要に応じて コンテキストウィンドウ 必要に応じて、最大 202752
➿反復とループの削減
1月21日更新:llama.cpp が誤った "scoring_func": "softmax" を指定していたバグを修正しました。これがループや低品質な出力の原因でした(正しくは sigmoid です)。GGUF を更新しました。より良い出力を得るにはモデルを再ダウンロードしてください。
つまり、Z.ai 推奨のパラメータを使って素晴らしい結果が得られるようになりました:
一般用途では:
--temp 1.0 --top-p 0.95ツール呼び出しでは:
--temp 0.7 --top-p 1.0llama.cpp を使う場合は、次を設定してください
--min-p 0.01llama.cpp のデフォルトは 0.05 だからです繰り返しペナルティは忘れずに無効化してください!または次を設定してください
--repeat-penalty 1.0
次を追加しました "scoring_func": "sigmoid" を config.json メインモデル向けの を参照してください.
現時点では、 推奨しません この GGUF を Ollama で実行することを。チャットテンプレートの互換性問題が起こる可能性があるためです。この GGUF は llama.cpp(または LM Studio、Jan などのバックエンド)上でうまく動作します。
🐦UD-Q4_K_XL を使った Flappy Bird の例
例として、私たちは UD-Q4_K_XL を使って次の長い会話を行いました。経由で ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :
その結果、次の HTML 形式の Flappy Bird ゲームがレンダリングされました:
そして、いくつかスクリーンショットを撮りました(4bit で動作します):


🦥 GLM-4.7-Flash のファインチューニング
Unsloth は現在 GLM-4.7-Flash のファインチューニングをサポートしていますが、 transformers v5を使用する必要があります。30B モデルは無料の Colab GPU には収まりませんが、ノートブックを使用できます。GLM-4.7-Flash の 16-bit LoRA ファインチューニングでは約 60GB VRAM:
A100 40GB VRAM を使うと、時々メモリ不足になることがあります。よりスムーズに実行するには H100/A100 80GB VRAM を使用する必要があります。
MoE のファインチューニングでは、ルーター層をファインチューニングするのはおそらく良い考えではないため、デフォルトで無効にしています。推論能力を維持したい場合(任意)は、直接回答と chain-of-thought の例を混ぜて使えます。少なくとも 75% を推論 および 25% を非推論 としてデータセットに含めると、モデルが推論能力を維持しやすくなります。
🦙Llama-server の提供とデプロイ
GLM-4.7-Flash を本番環境にデプロイするには、 llama-server を使用します。tmux 経由などで新しいターミナルを開き、以下でモデルをデプロイします:
その後、新しいターミナルで、 pip install openaiを実行した後、次を実行します:
これにより、次が出力されます
💻 vLLM における GLM-4.7-Flash
新しい FP8 Dynamic 量子化版 プレミアムで高速な推論のためのモデル。まず nightly 版から vLLM をインストールしてください:
次に serve します Unsloth のダイナミック FP8 版 モデル。KV キャッシュのメモリ使用量を 50% 削減するために FP8 を有効にし、4 GPU 上で動作させています。GPU が 1 枚の場合は、 CUDA_VISIBLE_DEVICES='0' を使い、 --tensor-parallel-size 1 を使用するか、この引数を削除してください。FP8 を無効にするには、 --quantization fp8 --kv-cache-dtype fp8
その後、OpenAI API 経由で提供中のモデルを呼び出せます:
⭐ vLLM GLM-4.7-Flash の Speculative Decoding
GLM 4.7 Flash の MTP(マルチトークン予測)モジュールを使うと、生成スループットが 1 台の B200 で 13,000 トークンから 1,300 トークンまで落ちることが分かりました!(10 倍遅い) Hopper では、おそらく問題ないはずです。
1xB200 でのスループットは 1,300 トークン/秒のみ(ユーザーあたりのデコードは 130 トークン/秒)

そして 1xB200 でのスループットは 13,000 トークン/秒(それでもユーザーあたりのデコードは 130 トークン/秒)

🔨GLM-4.7-Flash でのツール呼び出し
参照 Tool Calling Guide ツール呼び出しの方法の詳細について。新しいターミナルで(tmux を使っている場合は CTRL+B+D)、2つの数の加算、Python コードの実行、Linux 関数の実行など、いくつかのツールを作成します:
その後、以下の関数(コピーして貼り付けて実行)を使います。これにより関数呼び出しが自動的に解析され、どのモデルに対しても OpenAI エンドポイントが呼び出されます:
経由で GLM-4.7-Flash を起動した後 llama-server のように GLM-4.7-Flash または Tool Calling Guide さらに詳しく見ると、いくつかのツール呼び出しができます:
GLM 4.7 の数値演算用ツール呼び出し

GLM-4.7-Flash で生成された Python コードを実行するためのツール呼び出し

ベンチマーク
GLM-4.7-Flash は、AIME 25 を除くすべてのベンチマークで最高性能の 30B モデルです。

AIME 25
91.6
85.0
91.7
GPQA
75.2
73.4
71.5
LCB v6
64.0
66.0
61.0
HLE
14.4
9.8
10.9
SWE-bench Verified
59.2
22.0
34.0
τ²-Bench
79.5
49.0
47.7
BrowseComp
42.8
2.29
28.3
最終更新
役に立ちましたか?

