GLM-4.7-Flash: ローカル実行方法
GLM-4.7-Flashをデバイス上でローカル実行・ファインチューニングしましょう!
GLM-4.7-Flash は、ローカル展開向けに構築された Z.ai の新しい 30B MoE 推論モデルで、コーディング、エージェント的ワークフロー、チャットにおいてクラス最高の性能を発揮します。約 3.6B パラメータを使用し、200K コンテキストをサポートし、SWE-Bench、GPQA、推論/チャットのベンチマークで首位です。
GLM-4.7-Flash の動作環境は 24GB RAM/VRAM/統合メモリ(完全精度では 32GB)が必要で、現在は Unsloth でファインチューニングもできます。vLLM で GLM 4.7 Flash を実行する方法は GLM-4.7-Flash
1月21日更新: llama.cpp 誤った scoring_func: "softmax" を指定していたバグを修正しました( "sigmoid"であるべきでした)。これによりループと低品質な出力が発生していました。GGUF を更新したので、モデルを再ダウンロードしていただくと、はるかに良い出力が得られます。
現在は Z.ai 推奨のパラメータを使って、素晴らしい結果を得られます:
一般的な用途では:
--temp 1.0 --top-p 0.95ツール呼び出しでは:
--temp 0.7 --top-p 1.0繰り返しペナルティ: 無効にするか、
--repeat-penalty 1.0
1月22日: CUDA 向けの FA 修正がマージされたため、より高速な推論が利用できるようになりました。
実行用の GLM-4.7-Flash GGUF: unsloth/GLM-4.7-Flash-GGUF
⚙️ 使用ガイド
最適な性能を得るには、利用可能な総メモリ(VRAM + システム RAM)が、ダウンロードする量子化済みモデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cpp は SSD/HDD オフローディング経由で実行できますが、推論は遅くなります。
Z.ai のチームと話した結果、彼らは GLM-4.7 のサンプリングパラメータを使うことを推奨しています:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
繰り返しペナルティ = 無効、または 1.0
繰り返しペナルティ = 無効、または 1.0
一般的な用途では:
--temp 1.0 --top-p 0.95ツール呼び出しでは:
--temp 0.7 --top-p 1.0llama.cpp を使う場合は、
--min-p 0.01を設定してください。llama.cpp のデフォルトは 0.05 です。用途に最適な数値を見つけるには、試行錯誤が必要になることがあります。
現時点では、 推奨しません この GGUF を Ollama で実行することは、チャットテンプレートの互換性問題の可能性があるため推奨しません。この GGUF は llama.cpp(または LM Studio、Jan などのバックエンド)でうまく動作します。
繰り返しペナルティを無効にするのを忘れないでください! または、 --repeat-penalty 1.0
最大コンテキストウィンドウ:
202,752
🖥️ GLM-4.7-Flash を実行
用途によって、異なる設定を使う必要があります。一部の GGUF は、モデルアーキテクチャ(たとえば gpt-oss)の次元が 128 で割り切れないため、サイズが近くなり、いくつかの部分を低ビットに量子化できません。
このガイドは 4-bit を使用するため、約 18GB の RAM/統合メモリが必要です。最高の性能を得るには、少なくとも 4-bit 精度の使用を推奨します。
現時点では、 推奨しません この GGUF を Ollama で実行することは、チャットテンプレートの互換性問題の可能性があるため推奨しません。この GGUF は llama.cpp(または LM Studio、Jan などのバックエンド)でうまく動作します。
繰り返しペナルティを無効にするのを忘れないでください! または、 --repeat-penalty 1.0
🦥 Unsloth Studio ガイド
GLM-4.7-Flash は Unsloth Studioで実行およびファインチューニングできます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio を使えば、モデルをローカルで実行できます MacOS、Windows、Linux および:
検索、ダウンロード、 GGUF を実行 し、safetensor モデルを扱う
自己修復 ツール呼び出し + Web 検索
コード実行 (Python、Bash)
自動推論 パラメータ調整(temp、top-p など)
llama.cpp を介した高速な CPU + GPU 推論
LLM を学習する VRAM を 70% 少なくして 2 倍高速

Unslothをインストールする
ターミナルで実行:
MacOS、Linux、WSL:
Windows PowerShell:
インストールはすぐに終わり、およそ1〜2分かかります。
Unsloth を起動
MacOS、Linux、WSL、Windows:
その後、 http://localhost:8888 をブラウザで開いてください。
で実行およびファインチューニングできます
初回起動時には、アカウントを保護し後で再度サインインするためのパスワードを作成する必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップできます。
その後、 Studio Chat タブで GLM-4.7-Flash を検索バーに入力し、希望するモデルと量子化版をダウンロードしてください。

GLM-4.7-Flash を実行
Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。
詳細は、 Unsloth Studio 推論ガイド.

Llama.cpp チュートリアル(GGUF):
llama.cpp で実行するための手順(ほとんどのデバイスに収まるよう 4-bit を使用します):
最新の llama.cpp を GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスの場合、次を設定して -DGGML_CUDA=OFF その後は通常どおり続けてください - Metal サポートは既定で有効です。
Hugging Face から直接取得できます。RAM/VRAM に応じてコンテキストを 200K まで増やせます。
Z.ai 推奨の GLM-4.7 サンプリングパラメータも試せます:
一般的な用途では:
--temp 1.0 --top-p 0.95ツール呼び出しでは:
--temp 0.7 --top-p 1.0繰り返しペナルティを無効にするのを忘れないでください!
以下を参照してください: 一般向けの説明 ユースケース:
以下を参照してください: ツール呼び出し ユースケース:
モデルのダウンロード( pip install huggingface_hubのインストール後)。 UD-Q4_K_XL などの他の量子化版もあります。ダウンロードが止まる場合は、 Hugging Face Hub、XETデバッグ
その後、会話モードでモデルを実行します:
また、 コンテキストウィンドウ 必要に応じて、最大で 202752
➿反復とループの削減
1月21日更新: llama.cpp が、誤った "scoring_func": "softmax" を指定していたバグを修正しました。これがループと低品質な出力の原因でした(sigmoid であるべきでした)。GGUF を更新しました。より良い出力を得るために、モデルを再ダウンロードしてください。
つまり、Z.ai の推奨パラメータを使って、素晴らしい結果を得られるようになりました:
一般的な用途では:
--temp 1.0 --top-p 0.95ツール呼び出しでは:
--temp 0.7 --top-p 1.0llama.cpp を使う場合は、
--min-p 0.01を設定してください。llama.cpp のデフォルトは 0.05 です。繰り返しペナルティを無効にするのを忘れないでください! または、
--repeat-penalty 1.0
追加しました "scoring_func": "sigmoid" を config.json をメインモデルに対して - 参照.
現時点では、 推奨しません この GGUF を Ollama で実行することは、チャットテンプレートの互換性問題の可能性があるため推奨しません。この GGUF は llama.cpp(または LM Studio、Jan などのバックエンド)でうまく動作します。
🐦UD-Q4_K_XL を使った Flappy Bird の例
例として、UD-Q4_K_XL を使って以下の長い会話を行いました ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :
その結果、HTML 形式で以下の Flappy Bird ゲームがレンダリングされました:
そして、いくつかのスクリーンショットを撮りました(4bit でも動作します):


🦥 GLM-4.7-Flash のファインチューニング
Unsloth は現在 GLM-4.7-Flash のファインチューニングをサポートしていますが、 transformers v5を使用する必要があります。30B モデルは無料の Colab GPU には収まりませんが、ノートブックを利用できます。GLM-4.7-Flash の 16-bit LoRA ファインチューニングでは約 60GB の VRAM:
A100 40GB VRAM を使用すると、時々メモリ不足に遭遇する場合があります。よりスムーズに実行するには H100/A100 80GB VRAM が必要です。
MoE のファインチューニングでは、ルーター層をファインチューニングするのはあまり良くない可能性があるため、デフォルトで無効にしています。推論能力を維持したい場合(任意)は、直接回答と chain-of-thought の例を混ぜて使えます。少なくとも 75% の推論 および 25% の非推論 をデータセットに含めて、モデルの推論能力を保持させてください。
🦙Llama-server のサービングとデプロイ
本番環境で GLM-4.7-Flash をデプロイするには、 llama-server を使用します。新しいターミナルで、たとえば tmux 経由で、次のようにモデルをデプロイします:
次に新しいターミナルで、 pip install openaiを実行した後、次を行います:
すると次を出力します
💻 vLLM における GLM-4.7-Flash
新しい FP8 Dynamic 量子化版 モデルの、高性能かつ高速な推論用です。まず nightly 版から vLLM をインストールしてください:
その後、 Unsloth の動的 FP8 版 モデルの。KV キャッシュのメモリ使用量を 50% 削減するために FP8 を有効にし、4 GPU で実行しています。GPU が 1 枚の場合は CUDA_VISIBLE_DEVICES='0' を使い、 --tensor-parallel-size 1 を使用するか、この引数を削除してください。FP8 を無効にするには、 --quantization fp8 --kv-cache-dtype fp8
その後、OpenAI API 経由で提供中のモデルを呼び出せます:
⭐ vLLM による GLM-4.7-Flash の推測デコード
GLM 4.7 Flash の MTP(マルチトークン予測)モジュールを使うと、生成スループットが 1 台の B200 で 13,000 トークンから 1,300 トークンへ低下することが分かりました! (10 倍遅い)Hopper では、うまくいくはずです。
1xB200 でスループットは 1,300 トークン/秒のみ(ユーザーごとのデコードは 130 トークン/秒)

そして 1xB200 でスループット 13,000 トークン/秒(それでもユーザーごとのデコードは 130 トークン/秒)

🔨GLM-4.7-Flash でのツール呼び出し
参照 Tool Calling Guide ツール呼び出しの方法の詳細については。新しい端末で(tmux を使っている場合は CTRL+B+D)、2つの数の加算、Python コードの実行、Linux 関数の実行など、いくつかのツールを作成します:
その後、以下の関数(コピーして貼り付けて実行)を使用します。これにより関数呼び出しが自動的に解析され、任意のモデルに対して OpenAI エンドポイントが呼び出されます:
次の方法で GLM-4.7-Flash を起動した後 llama-server 経由で起動した後、 GLM-4.7-Flash のように、または Tool Calling Guide を参照して詳細を確認すると、いくつかのツール呼び出しを行えます:
GLM 4.7 の数学演算用ツール呼び出し

GLM-4.7-Flash で生成した Python コードを実行するためのツール呼び出し

ベンチマーク
GLM-4.7-Flash は、AIME 25 を除くすべてのベンチマークで最も高性能な 30B モデルです。

AIME 25
91.6
85.0
91.7
GPQA
75.2
73.4
71.5
LCB v6
64.0
66.0
61.0
HLE
14.4
9.8
10.9
SWE-bench Verified
59.2
22.0
34.0
τ²-Bench
79.5
49.0
47.7
BrowseComp
42.8
2.29
28.3
最終更新
役に立ちましたか?

