GLM-4.7-Flash: ローカルでの実行方法
GLM-4.7-Flash をローカルで実行およびファインチューニングしましょう!
GLM-4.7-Flash は Z.ai の新しいローカル展開向け 30B MoE 推論モデルで、コーディング、エージェンティックなワークフロー、チャットにおいて最高クラスの性能を発揮します。約 36 億のパラメータを使用し、200K のコンテキストをサポートし、SWE-Bench、GPQA、推論/チャットベンチマークでトップを走っています。
GLM-4.7-Flash は次で動作します 24GB RAM/VRAM/統一メモリ(フルプレシジョンでは 32GB)で、Unsloth によるファインチューニングが可能です。vLLM で GLM 4.7 Flash を実行するには、こちらを参照してください GLM-4.7-Flash
1月21日アップデート: llama.cpp 誤った scoring_func: 「softmax」 (本来は 「sigmoid」)であるべきでした。これによりループや低品質な出力が発生していました。GGUF を更新しました — より良い出力を得るためにモデルを再ダウンロードしてください。
Z.ai 推奨のパラメータを使えば素晴らしい結果が得られます:
一般的なユースケースの場合:
--temp 1.0 --top-p 0.95ツールコーリングの場合:
--temp 0.7 --top-p 1.0リピートペナルティ: 無効にするか、次を設定してください
--repeat-penalty 1.0
1月22日:CUDA の FA 修正がマージされ、高速な推論が利用可能になりました。
GLM-4.7-Flash を実行するための GGUF: unsloth/GLM-4.7-Flash-GGUF
⚙️ 使用ガイド
最高のパフォーマンスを得るには、ダウンロードする量子化モデルファイルのサイズを合計利用可能メモリ(VRAM + システムRAM)が上回っていることを確認してください。満たしていない場合、llama.cpp は SSD/HDD オフローディングで動作しますが、推論は遅くなります。
Z.ai チームと相談した結果、彼らの GLM-4.7 サンプリングパラメータの使用を推奨します:
temperature = 1.0
temperature = 0.7
top_p = 0.95
top_p = 1.0
repeat penalty = 無効または 1.0
repeat penalty = 無効または 1.0
一般的なユースケースの場合:
--temp 1.0 --top-p 0.95ツールコーリングの場合:
--temp 0.7 --top-p 1.0llama.cpp を使う場合は、次を設定してください
--min-p 0.01(llama.cpp のデフォルトは 0.05 です)場合によっては、ユースケースに最適な数値を試行する必要があります。
現時点では、私たちは おすすめしません この GGUF を次で実行することを Ollama チャットテンプレート互換性の問題が起こる可能性があるためです。GGUF は llama.cpp(または LM Studio、Jan などのバックエンド)でうまく動作します。
リピートペナルティを無効にすることを忘れないでください!あるいは次を設定してください --repeat-penalty 1.0
最大コンテキストウィンドウ:
202,752
🖥️ GLM-4.7-Flash を実行する
ユースケースに応じて異なる設定を使用する必要があります。モデルアーキテクチャ(例えば gpt-oss)が 128 で割り切れない次元を持つと、一部が低ビットに量子化できないため、いくつかの GGUF が同程度のサイズになることがあります。
このガイドでは 4 ビットを使用するため、約 18GB の RAM/統一メモリが必要です。最高のパフォーマンスのために少なくとも 4 ビット精度を使用することを推奨します。
現時点では、私たちは おすすめしません この GGUF を次で実行することを Ollama チャットテンプレート互換性の問題が起こる可能性があるためです。GGUF は llama.cpp(または LM Studio、Jan などのバックエンド)でうまく動作します。
リピートペナルティを無効にすることを忘れないでください!あるいは次を設定してください --repeat-penalty 1.0
Llama.cpp チュートリアル(GGUF):
llama.cpp での実行手順(ほとんどのデバイスに合わせて 4 ビットを使います):
最新のものを入手してください llama.cpp で GitHub はこちらからビルド手順に従うこともできます。次を変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF GPU を持っていない、または CPU 推論のみを行いたい場合は。
Hugging Face から直接プルできます。RAM/VRAM に応じてコンテキストを 200K まで増やせます。
また Z.ai 推奨の GLM-4.7 サンプリングパラメータを試すこともできます:
一般的なユースケースの場合:
--temp 1.0 --top-p 0.95ツールコーリングの場合:
--temp 0.7 --top-p 1.0リピートペナルティを無効にすることを忘れないでください!
以下は 一般的な使用法 ユースケース:
以下は tool-calling ユースケース:
(pip install huggingface_hub をインストールした後に)モデルを次でダウンロードします: pip install huggingface_hub)。次のいずれかを選べます UD-Q4_K_XL または他の量子化バージョン。ダウンロードが止まる場合は、次を参照してください Hugging Face Hub、XET デバッグ
その後、会話モードでモデルを実行します:
また、必要に応じて コンテキストウィンドウ を調整してください(最大まで) 202752
➿反復やループの削減
1月21日アップデート:llama.cpp は誤って指定されていた次の項目のバグを修正しました 「scoring_func": "softmax"」 これによりループや低品質な出力が発生していました(本来は sigmoid であるべきでした)。GGUF を更新しました。より良い出力のためにモデルを再ダウンロードしてください。
これにより、Z.ai 推奨のパラメータを使用して優れた結果を得られるようになりました:
一般的なユースケースの場合:
--temp 1.0 --top-p 0.95ツールコーリングの場合:
--temp 0.7 --top-p 1.0llama.cpp を使う場合は、次を設定してください
--min-p 0.01(llama.cpp のデフォルトは 0.05 です)リピートペナルティを無効にすることを忘れないでください!あるいは次を設定してください
--repeat-penalty 1.0
以下を追加しました 「scoring_func": "sigmoid" を config.json をメインモデル用に — 参照してください.
現時点では、私たちは おすすめしません この GGUF を次で実行することを Ollama チャットテンプレート互換性の問題が起こる可能性があるためです。GGUF は llama.cpp(または LM Studio、Jan などのバックエンド)でうまく動作します。
🐦UD-Q4_K_XL を使った Flappy Bird の例
例として、UD-Q4_K_XL を使用して次のような長い会話を行いました: ./llama.cpp/llama-cli --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf --fit on --temp 1.0 --top-p 0.95 --min-p 0.01 :
結果として次の Flappy Bird ゲームを HTML 形式でレンダリングしました:
そしていくつかスクリーンショットを撮りました(4bitで動作します):


🦥 GLM-4.7-Flash のファインチューニング
Unsloth は now GLM-4.7-Flash のファインチューニングをサポートします が、ただし次を使用する必要があります transformers v5。30B モデルは無料の Colab GPU には収まりません;ただし、当社のノートブックを使用できます。GLM-4.7-Flash の 16-bit LoRA ファインチューニングは約 60GB VRAM:
A100 40GB VRAM を使用する際に時々メモリ不足が発生することがあります。よりスムーズに実行するには H100/A100 80GB VRAM を使用する必要があります。
MoE のファインチューニングでは、ルーターレイヤーをファインチューニングするのはあまり良い考えではないため、デフォルトで無効にしました。推論能力を維持したい場合(任意)、直接回答とチェーン・オブ・ソート(思考の連鎖)の例を混ぜて使用できます。少なくとも 75% 推論(reasoning) と 25% 非推論(non-reasoning) をデータセットに含めてモデルが推論能力を保持するようにしてください。
🦙Llama-server のサービングとデプロイ
GLM-4.7-Flash を本番展開するには、我々は次を使用します llama-server 新しいターミナルで(例えば tmux 経由で)、次のようにモデルをデプロイします:
次に新しいターミナルで、 pip install openaiを行った後、次を実行します:
これは次を出力します
💻 vLLM における GLM-4.7-Flash
今すぐ我々の新しい FP8 Dynamic quant をプレミアムで高速な推論のためにモデルに使用できます。まず nightly から vLLM をインストールしてください:
次にサーブします Unsloth の動的 FP8 バージョン のモデルを。FP8 を有効にして KV キャッシュのメモリ使用量を 50% 削減し、4 GPU 上での動作を可能にしました。GPU が 1 台しかない場合は、次を使用してください CUDA_VISIBLE_DEVICES='0' そして次を設定します --tensor-parallel-size 1 またはこの引数を削除してください。FP8 を無効にするには、次を削除します --quantization fp8 --kv-cache-dtype fp8
その後、OpenAI API 経由でサーブされたモデルを呼び出すことができます:
⭐ vLLM GLM-4.7-Flash の Speculative Decoding
GLM 4.7 Flash の MTP(multi token prediction)モジュールを使用すると、1 台の B200 での生成スループットが 13,000 トークンから 1,300 トークンに低下することを確認しました!(10倍遅い)Hopper では問題ないはずです。
1xB200 でのスループットはわずか 1,300 トークン/秒(ユーザーごとのデコードは 130 トークン/秒)

そして 1xB200 でのスループットは 13,000 トークン/秒(それでもユーザーごとのデコードは 130 トークン/秒)

🔨GLM-4.7-Flash によるツール呼び出し
詳細については次を参照してください Tool Calling Guide ツール呼び出しの方法についての詳細はここを参照してください。新しいターミナルで(tmux を使用している場合は CTRL+B+D を使って)、2つの数値の加算、Python コードの実行、Linux 機能の実行など多くのツールを作成します:
その後、以下の関数を使用します(コピーして貼り付けて実行)これらは関数呼び出しを自動で解析し、任意のモデルの OpenAI エンドポイントを呼び出します:
GLM-4.7-Flash を起動した後、 llama-server のように、 GLM-4.7-Flash または詳細は次を参照してください Tool Calling Guide 詳細については、次のようにいくつかのツール呼び出しを実行できます:
GLM 4.7 用の数学演算のためのツール呼び出し

GLM-4.7-Flash 用に生成された Python コードを実行するためのツール呼び出し

ベンチマーク
GLM-4.7-Flash は AIME 25 を除くすべてのベンチマークで最も高性能な 30B モデルです。

AIME 25
91.6
85.0
91.7
GPQA
75.2
73.4
71.5
LCB v6
64.0
66.0
61.0
HLE
14.4
9.8
10.9
SWE-bench Verified
59.2
22.0
34.0
τ²-Bench
79.5
49.0
47.7
BrowseComp
42.8
2.29
28.3
最終更新
役に立ちましたか?

