GLM-4.7：ローカル実行ガイド

Z.ai の GLM-4.7 モデルを自分のローカルデバイスで実行するためのガイド！

GLM-4.7はZ.aiの最新の思考モデルで、より強力なコーディング、エージェント、およびチャット性能を提供します（より優れた性能を示します）。 GLM-4.6。SWE-bench（73.8%、+5.8）、SWE-bench Multilingual（66.7%、+12.9）、および Terminal Bench 2.0（41.0%、+16.5）でSOTA性能を達成しています。

フルの3550億パラメータモデルは 400GB のディスク容量を必要としますが、Unsloth Dynamic 2-bit GGUFはサイズを 134GB (-75%). GLM-4.7-GGUF

すべてのアップロードはUnslothを使用しています Dynamic 2.0 はSOTAの5-shot MMLUおよびAider性能を実現するため、量子化されたGLM大規模言語モデルを最小限の精度低下で実行およびファインチューニングできます。

⚙️ 使用ガイド

2ビット動的量子化 UD-Q2_K_XL は135GBのディスク容量を使用します - これは 1x24GBカードと128GBのRAM でMoEオフロードを使用するとうまく動作します。1ビットUD-TQ1 GGUFも Ollamaでネイティブに動作します!

次を使用する必要があります --jinja llama.cppの量子化には - これは私たちの固定されたチャットテンプレートを使用し、正しいテンプレートを有効にします！これを使用しないと誤った結果を得る可能性があります --jinja

4ビットの量子化は1x40GB GPUに収まります（MoE層をRAMにオフロードする場合）。この構成でボーナスの165GBのRAMがあるとおよそ5トークン/秒を期待できます。この4ビットを実行するには少なくとも205GBのRAMがあることを推奨します。最適な性能のためには、5+ トークン/秒を得るには少なくとも205GBの統一メモリ、または合計205GBのRAM+VRAMが必要です。生成速度を上げてより長いコンテキストを収める方法については、ここを読む.

必須ではありませんが、最高の性能を得るには、ダウンロードする量子化モデルのサイズとVRAM+RAMの合計が等しくなるようにしてください。そうでない場合でも、llama.cppではハードドライブ/SSDオフロードが機能しますが、推論は遅くなります。また、 --fit on を llama.cpp で使用して最大のGPU使用を自動的に有効にしてください！

推奨設定

用途別に異なる設定を使用してください。デフォルトおよびマルチターンのエージェント的な使用例に対する推奨設定：

デフォルト設定（ほとんどのタスク）

Terminal Bench、SWE Bench 検証済み

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

131072 max new tokens

16384 max new tokens

次を使用してください --jinja llama.cpp系で - 私たちは いくつかのチャットテンプレートの問題を修正しました！
最大コンテキストウィンドウ： 131,072

GLM-4.7チュートリアルの実行：

GLM-4.7を実行するためのステップバイステップガイドは Ollama および llama.cpp.

✨ llama.cppで実行する

最新の llama.cpp を GitHubで入手できます。以下のビルド手順にも従うことができます。変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF もしGPUを持っていない場合やCPU推論のみを行いたい場合は。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

もし直接モデルを読み込むために llama.cpp を使用したい場合、以下のようにできます：（:Q2_K_XL）は量子化の種類です。Hugging Face（ポイント3）経由でダウンロードすることもできます。これは ollama run に類似しています。使用してください export LLAMA_CACHE="folder" で強制的に llama.cpp を特定の場所に保存させます。モデルは最大128Kのコンテキスト長しか持たないことを忘れないでください。

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/GLM-4.7-GGUF:UD-Q2_K_XL \
    --jinja \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --fit on

次を使用してください --fit on はGPUとCPUの最大使用のために2025年12月15日に導入されました。

オプションで、次を試してください -ot ".ffn_.*_exps.=CPU" ですべてのMoE層をCPUにオフロードします！これにより、非MoE層を1つのGPUに収められるようになり、生成速度が向上します。GPU容量が大きい場合は正規表現をカスタマイズしてより多くの層を適合させることができます。

もしもう少しGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これはupおよびdownの投影MoE層をオフロードします。

試してみてください -ot ".ffn_(up)_exps.=CPU" もしさらに多くのGPUメモリがある場合。これはup投影MoE層のみをオフロードします。

そして最後にすべての層を次でオフロードします -ot ".ffn_.*_exps.=CPU" これは最小のVRAMを使用します。

正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は6層目以降のgate、up、downのMoE層をオフロードすることを意味します。

モデルをダウンロードする（インストール後） pip install huggingface_hub hf_transfer ）。次に UD-Q2_K_XL（動的2ビット量子化）や他の量子化バージョン（例： Q4_K_XL ）を選択できます。私たちは 2.7ビット動的量子化の使用を推奨します UD-Q2_K_XL はサイズと精度のバランスをとるためです.

pip install -U huggingface_hub
hf download unsloth/GLM-4.7-GGUF \
    --local-dir unsloth/GLM-4.7-GGUF \
    --include "*UD-Q2_K_XL*" # 動的1ビットの場合は "*UD-TQ1_0*" を使用

次の --threads 32 でCPUスレッド数を編集できます、 --ctx-size 16384 でコンテキスト長を、 --n-gpu-layers 2 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。

./llama.cpp/llama-cli \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --jinja \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --seed 3407 \
    --fit on

🦙 Ollamaで実行

インストールしてください ollama まだインストールしていない場合！モデルの他のバリアントを実行するには、ここを参照してください.

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

モデルを実行してください！失敗した場合は別の端末で ollama serveを呼び出せます！私たちのすべての修正と推奨パラメータ（temperatureなど）は params にHugging Faceのアップロードで含めています！

OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run hf.co/unsloth/GLM-4.7-GGUF:TQ1_0

他の量子化を実行するには、まずGGUF分割ファイルを以下のように1つにマージする必要があります。その後、モデルをローカルで実行する必要があります。

./llama.cpp/llama-gguf-split --merge \
  GLM-4.7-GGUF/GLM-4.7-UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
	merged_file.gguf

OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run merged_file.gguf

✨ llama-serverとOpenAIのcompletionライブラリでデプロイ

llama-serverをデプロイに使用するには、次のコマンドを使用してください：

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --alias "unsloth/GLM-4.7" \
    --fit on \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

その後、OpenAIのPythonライブラリを使用します（インストール後） pip install openai :

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/GLM-4.7",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)

🔨GLM 4.7でのツール呼び出し

詳細については Tool Calling Guide を参照してください。新しい端末で（tmuxを使用している場合はCTRL+B+Dを使用）、2つの数を足す、Pythonコードを実行する、Linuxコマンドを実行するなど多くのツールを作成します：

import json, subprocess, random
from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
def write_a_story() -> str:
    return random.choice([
        "遥か彼方の銀河で昔々...",
        "ナマケモノとコードを愛する2人の友人がいた...",
        "すべてのナマケモノが超人的な知能を獲得したため世界が終わりかけていた...",
        "片方の友人が知らぬ間に、もう一方がうっかりナマケモノを進化させるプログラムを書いてしまった...",
    ])
def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        msg = "危険なため 'rm, sudo, dd, chmod' コマンドを実行できません"
        print(msg); return msg
    print(f"ターミナルコマンド `{command}` を実行しています")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
    except subprocess.CalledProcessError as e:
        return f"コマンドが失敗しました: {e.stderr}"
def python(code: str) -> str:
    data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
}
tools = [
    {
        "type": "function",
        "function": {
            "name": "add_number",
            "description": "2つの数を加算します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "最初の数。",
                    },
                    "b": {
                        "type": "string",
                        "description": "2番目の数。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "multiply_number",
            "description": "2つの数を乗算します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "最初の数。",
                    },
                    "b": {
                        "type": "string",
                        "description": "2番目の数。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "substract_number",
            "description": "2つの数を減算します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "最初の数。",
                    },
                    "b": {
                        "type": "string",
                        "description": "2番目の数。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "write_a_story",
            "description": "ランダムな物語を書きます。",
            "parameters": {
                "type": "object",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "terminal",
            "description": "ターミナルから操作を実行します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {
                        "type": "string",
                        "description": "実行したいコマンド、例：`ls`、`rm`、...",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "python",
            "description": "実行するPythonコードでPythonインタプリタを呼び出します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "実行するPythonコード",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

次に以下の関数を使用します（コピー＆ペーストして実行）。これらは関数呼び出しを自動的に解析し、任意のモデルのためにOpenAIエンドポイントを呼び出します：

from openai import OpenAI
def unsloth_inference(
    messages,
    temperature = 0.7,
    top_p = 0.95,
    top_k = 40,
    min_p = 0.01,
    repetition_penalty = 1.0,
):
    messages = messages.copy()
    openai_client = OpenAI(
        base_url = "http://127.0.0.1:8001/v1",
        api_key = "sk-no-key-required",
    )
    model_name = next(iter(openai_client.models.list())).id
    print(f"使用中のモデル = {model_name}")
    has_tool_calls = True
    original_messages_len = len(messages)
    while has_tool_calls:
        print(f"現在のメッセージ = {messages}")
        response = openai_client.chat.completions.create(
            model = model_name,
            messages = messages,
            temperature = temperature,
            top_p = top_p,
            tools = tools if tools else None,
            tool_choice = "auto" if tools else None,
            extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
        )
        tool_calls = response.choices[0].message.tool_calls or []
        content = response.choices[0].message.content or ""
        tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
        messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
        for tool_call in tool_calls:
            fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
            out = MAP_FN[fx](**json.loads(args))
            messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
        else:
            has_tool_calls = False
    return messages

GLM 4.7を起動した後（例えば llama-server のように）、 GLM-4.7 または詳細は Tool Calling Guide を参照してください。その後、いくつかのツール呼び出しを行うことができます：

GLM 4.7の数学演算のためのツール呼び出し

messages = [{
    "role": "user",
    "content": [{"type": "text", "text": "今日の日付に3日を加えると？"}],
}]
unsloth_inference(messages, temperature = 0.7, top_p = 1.0, top_k = -1, min_p = 0.00)

GLM 4.7の生成されたPythonコードを実行するためのツール呼び出し

messages = [{
    "role": "user",
    "content": [{"type": "text", "text": "Pythonでフィボナッチ関数を作成し、fib(20)を求めてください。"}],
}]
unsloth_inference(messages, temperature = 0.7, top_p = 1.0, top_k = -1, min_p = 0.00)

🏂 生成速度の改善

次を使用してください --fit on はGPUとCPUの最大使用のために2025年12月15日に導入されました。詳しくは https://github.com/ggml-org/llama.cpp/pull/16653 --fit on はモデルの可能な限りの部分をGPUに自動オフロードし、残りをCPUに配置します。

もしVRAMがより多くある場合は、さらに多くのMoE層をオフロードするか、層全体をオフロードすることを試すことができます。

通常、 -ot ".ffn_.*_exps.=CPU" はすべてのMoE層をCPUにオフロードします！これにより非MoE層を1つのGPUに収めることができ、生成速度が向上します。GPU容量が大きい場合は正規表現をカスタマイズしてより多くの層を適合させることができます。

もしもう少しGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これはupおよびdownの投影MoE層をオフロードします。

試してみてください -ot ".ffn_(up)_exps.=CPU" もしさらに多くのGPUメモリがある場合。これはup投影MoE層のみをオフロードします。

Llama.cppはまた高スループットモードを導入しています。使用するのは llama-parallelです。詳細はここを参照してください。さらに、 KVキャッシュを4ビットに量子化することもできます 例えばVRAM / RAMの移動を減らすことで、生成プロセスを高速化することができます。

📐長いコンテキスト（フル128K）を収める方法

より長いコンテキストを収めるには、 KVキャッシュの量子化 を使用してKおよびVキャッシュをより低いビットに量子化できます。これによりRAM/VRAMのデータ移動が減り、生成速度が向上することがあります。K量子化の許容オプション（デフォルトは f16）には以下が含まれます。

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

若干精度が向上するために _1 変種を使用するべきですが、わずかに遅くなります。例えば q4_1, q5_1

Vキャッシュも量子化できますが、その場合は llama.cppをFlash Attentionサポートでコンパイルする必要があります には次を使用してください -DGGML_CUDA_FA_ALL_QUANTS=ON、そして次を使用して --flash-attn で有効にします。次に --cache-type-k :

と一緒に使用できます：--cache-type-v f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

前へDeepSeek-OCR 2 次へNVIDIA Nemotron 3 Nano

最終更新 18 日前

役に立ちましたか？

hashtag⚙️ 使用ガイド

hashtag推奨設定

hashtagGLM-4.7チュートリアルの実行：

hashtag✨ llama.cppで実行する

hashtag🦙 Ollamaで実行

hashtag✨ llama-serverとOpenAIのcompletionライブラリでデプロイ

hashtag🔨GLM 4.7でのツール呼び出し

hashtag🏂 生成速度の改善

hashtag📐長いコンテキスト（フル128K）を収める方法

⚙️ 使用ガイド

推奨設定

GLM-4.7チュートリアルの実行：

✨ llama.cppで実行する

🦙 Ollamaで実行

✨ llama-serverとOpenAIのcompletionライブラリでデプロイ

🔨GLM 4.7でのツール呼び出し

🏂 生成速度の改善

📐長いコンテキスト（フル128K）を収める方法