GLM-5: ローカルで実行する方法ガイド

Z.ai の新しい GLM-5 モデルを自分のローカルデバイスで実行しましょう！

GLM-5はZ.aiの最新の推論モデルで、より強力なコーディング、エージェント、およびチャット性能を提供します。 GLM-4.7、長文コンテキスト推論向けに設計されています。Humanity's Last Examで50.4%（+7.6%）、BrowseCompで75.9%（+8.4%）、Terminal-Bench-2.0で61.1%（+28.3%）などのベンチマークで性能が向上しています。

フルの7440億パラメータ（アクティブ40B）モデルは、 200Kのコンテキスト ウィンドウを持ち、285兆トークンで事前学習されています。フルGLM-5モデルには 1.65TB のディスク容量を必要としますが、Unsloth Dynamic 2-bit GGUFはサイズを 241GB (-85%)、および動的 1ビットは176GB（-89%）： GLM-5-GGUF

すべてのアップロードはUnslothを使用しています Dynamic 2.0 —最先端の量子化性能のために。したがって1ビットでは重要なレイヤーが8または16ビットにアップキャストされています。日付初日にUnslothにアクセスを提供してくれたZ.aiに感謝します。

⚙️ 使用ガイド

2ビットの動的量子化 UD-IQ2_XXS は、 241GB のディスクスペースを使用します — これは直接 256GBのユニファイドメモリを搭載したMacに収まります、また、 1x24GBカードと256GBのRAM でMoEオフロードを使う場合にもよく機能します。 1ビット 量子化は180GBのRAMに収まり、8ビットは805GBのRAMを必要とします。

最高のパフォーマンスのために、利用可能な総メモリ（VRAM + システムRAM）がダウンロードしようとしている量子化モデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cppはSSD/HDDオフロードで動作できますが、推論は遅くなります。

推奨設定

用途ごとに異なる設定を使用してください：

デフォルト設定（ほとんどのタスク）

SWEベンチ検証済み

temperature = 1.0

temperature = 0.7

top_p = 0.95

top_p = 1.0

最大新規トークン = 131072

最大新規トークン = 16384

リピートペナルティ = 無効または 1.0

Min_P = 0.01 （llama.cppのデフォルトは0.05）
最大コンテキストウィンドウ： 202,752.
マルチターンのエージェンシー的タスク（τ²-BenchおよびTerminal Bench 2）の場合は、Preserved Thinkingモードをオンにしてください。

GLM-5チュートリアルを実行する：

✨ llama.cppで実行する

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

もし直接 llama.cpp モデルを直接ロードするには、以下を実行できます：（:IQ2_XXS）は量子化タイプです。Hugging Face（ポイント3）経由でもダウンロードできます。これは、 ollama run に類似しています。 使用してください export LLAMA_CACHE="folder" llama.cpp 特定の場所に保存するためのものです。モデルは最大で200Kのコンテキスト長しか持たないことを忘れないでください。

以下に従ってください： 一般的な指示 ユースケース：

export LLAMA_CACHE="unsloth/GLM-5-GGUF"
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/GLM-5-GGUF:UD-IQ2_XXS \
    --jinja \
    --ctx-size 16384 \
    --temp 0.7 \\
    --top-p 1.0 \
    --min-p 0.01

以下に従ってください： ツールコール ユースケース：

export LLAMA_CACHE="unsloth/GLM-5-GGUF"
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/GLM-5-GGUF:UD-IQ2_XXS \
    --jinja \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --min-p 0.01

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ を選択できます。 サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を （動的2ビット量子化）や他の量子化バージョンのような、 UD-Q4_K_XL Q4_K_XL 当社の2ビット動的量子化を使用することを推奨します。 サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を UD-Q2_K_XLダウンロードが止まった場合は、次を参照してください： Hugging Face Hub、XET デバッグ

使用することをお勧めします。
hf download unsloth/GLM-5-GGUF \
    --local-dir unsloth/GLM-5-GGUF \
    --include "*UD-IQ2_XXS*" # Dynamic 1bitの場合は "*UD-TQ1_0*" を使用

--include "*UD-Q2_K_XL*" # 動的1ビットの場合は "*UD-TQ1_0*" を使用 次の --threads 32 はCPUスレッドの数、 --ctx-size 16384 はコンテキスト長、 --n-gpu-layers 2

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
    --flash-attn on \
    --temp 1.0 \
    --min-p 0.01 \
    --jinja \
    --seed 3407

🦙 Llama-serverのサービングとOpenAIのcompletionライブラリ

GLM-5を本番運用にデプロイするには、私たちは次を使用します： return messages 新しいターミナルで例えば tmux を使い、次でモデルをデプロイします：

./llama.cpp/llama-server \
    --model unsloth/GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
    --alias "unsloth/GLM-5" \
    --fit on \
    --flash-attn on \
    --temp 1.0 \
    --jinja \
    --port 8001

その後、新しいターミナルで、を実行した後に： その後、OpenAIのPythonライブラリを使用します（次を行ってください：

from openai import OpenAI
）
from openai import OpenAI
    import json
    openai_client = OpenAI(
)
base_url = "http://127.0.0.1:8001/v1",
    model = "unsloth/GLM-5",
    messages = [{"role": "user", "content": "蛇ゲームを作成して。"},],
)
print(completion.choices[0].message.content)

すると、以下のような蛇ゲームの例が得られます：

これは単一のHTMLファイルに収められた完全でプレイ可能な蛇ゲームです。このコードをコピーして `.html` ファイル（例：`snake.html`）として保存し、ウェブブラウザで開いてプレイできます。

### コード

```html
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>クラシック・スネーク・ゲーム</title>
    <style>
        body {
            display: flex;
            flex-direction: column;
            justify-content: center;
            align-items: center;
            height: 100vh;
            margin: 0;
            background-color: #222;
            color: white;
            font-family: Arial, sans-serif;
        }

        #gameCanvas {
            border: 2px solid #fff;
            background-color: #000;
        }

        h1 {
            margin-bottom: 10px;
        }

        #scoreBoard {
            font-size: 20px;
            margin-bottom: 10px;
        }

        #gameOverMenu {
            position: absolute;
            display: none;
            flex-direction: column;
            justify-content: center;
            align-items: center;
            background: rgba(0, 0, 0, 0.85);
            padding: 20px;
            border-radius: 10px;
            border: 2px solid red;
        }

        button {
            margin-top: 15px;
            padding: 10px 20px;
            font-size: 16px;
            cursor: pointer;
            background-color: #4CAF50;
            color: white;
            border: none;
            border-radius: 5px;
        }
        
        button:hover {
            background-color: #45a049;
        }
    </style>
</head>
<body>

    <h1>スネークゲーム</h1>
    <div id="scoreBoard">スコア: 0</div>
    <canvas id="gameCanvas" width="400" height="400"></canvas>

    <div id="gameOverMenu">
        <h2 style="color: red; margin: 0;">ゲームオーバー！</h2>
        <p id="finalScore">最終スコア: 0</p>
        <button onclick="resetGame()">もう一度遊ぶ</button>
    </div>

    <script>
        // ゲーム定数
        const canvas = document.getElementById('gameCanvas');
        const ctx = canvas.getContext('2d');
        const scoreBoard = document.getElementById('scoreBoard');
        const gameOverMenu = document.getElementById('gameOverMenu');
        const finalScoreDisplay = document.getElementById('finalScore');

        const gridSize = 20; // 各マスのサイズ
        const tileCount = canvas.width / gridSize; // 行/列ごとのマス数

        // ゲーム変数
        let dx = 0; // 水平方向の速度
        let dy = 0; // 垂直方向の速度
        let score = 0;
        let snake = [];
        let foodX, foodY;
        let gameInterval;
        let isGameRunning = false;

        // ゲームの初期化
        function initGame() {
            snake = [
                {x: 10, y: 10}, 
                {x: 9, y: 10}, 
                {x: 8, y: 10}
            ];
            score = 0;
            scoreBoard.innerText = 'スコア: ' + score;
            dx = 1; // すぐに右へ移動を開始
            dy = 0;
            placeFood();
            isGameRunning = true;
            gameOverMenu.style.display = 'none';
            
            // ゲームループを開始
            if (gameInterval) clearInterval(gameInterval);
            gameInterval = setInterval(gameLoop, 100); // 100msごとにゲームループを実行
        }

        // メインのゲームループ
        function gameLoop() {
            if (!isGameRunning) return;

            moveSnake();
            if (checkGameOver()) {
                endGame();
                return;
            }
            checkFoodCollision();
            draw();
        }

        // スネークを移動
        function moveSnake() {
            // 現在の方向に基づいて新しい頭を作成
            const head = {x: snake[0].x + dx, y: snake[0].y + dy};
            
            // 配列の先頭に新しい頭を追加
            snake.unshift(head);

            // 食べ物を食べていない限り、尾（最後の要素）を削除
            // 注意: 尾の削除はcheckFoodCollisionで処理します
            snake.pop(); 
        }

        // スネークが食べ物を食べたかをチェック
        function checkFoodCollision() {
            const head = snake[0];
            
            if (head.x === foodX && head.y === foodY) {
                // スネークを成長させる: 尾の部分を追加（最後の要素を複製）
                snake.push({...snake[snake.length - 1]});
                score += 10;
                scoreBoard.innerText = 'スコア: ' + score;
                placeFood();
            }
        }

        // 衝突（壁または自己）をチェック
        function checkGameOver() {
            const head = snake[0];

            // 壁との衝突
            if (head.x < 0 || head.x >= tileCount || head.y < 0 || head.y >= tileCount) {
                return true;
            }

            // 自己衝突（頭が最初の3つには当たらないため、4番目のセグメントからチェックを開始）
            for (let i = 4; i < snake.length; i++) {
                if (head.x === snake[i].x && head.y === snake[i].y) {
                    return true;
                }
            }

            return false;
        }

        // すべてを描画
        function draw() {
            // キャンバスをクリア
            ctx.fillStyle = 'black';
            ctx.fillRect(0, 0, canvas.width, canvas.height);

            // 食べ物を描画
            ctx.fillStyle = 'red';
            ctx.fillRect(foodX * gridSize, foodY * gridSize, gridSize - 2, gridSize - 2);

            // スネークを描画
            ctx.fillStyle = 'lime';
            for (let i = 0; i < snake.length; i++) {
                // 頭を少し変えて描画するか、標準で描画
                const part = snake[i];
                ctx.fillRect(part.x * gridSize, part.y * gridSize, gridSize - 2, gridSize - 2);
            }
        }

        // 食べ物をランダムな位置に配置
        function placeFood() {
            foodX = Math.floor(Math.random() * tileCount);
            foodY = Math.floor(Math.random() * tileCount);

            // 食べ物がスネークの体に生成されないようにする
            for (let part of snake) {
                if (part.x === foodX && part.y === foodY) {
                    placeFood(); // 再帰的に新しい場所を見つける
                    return;
                }
            }
        }

        // ゲーム終了ロジック
        function endGame() {
            isGameRunning = false;
            clearInterval(gameInterval);
            finalScoreDisplay.innerText = '最終スコア: ' + score;
            gameOverMenu.style.display = 'flex';
        }

        // ゲームリセットロジック
        function resetGame() {
            initGame();
        }

        // キーボード操作
        document.addEventListener('keydown', (e) => {
            // 方向転換の反転を防ぐ（右に進んでいるときに左に行けない）
            switch(e.key) {
                case 'ArrowUp':
                    if (dy !== 1) { dx = 0; dy = -1; }
                    break;
                case 'ArrowDown':
                    if (dy !== -1) { dx = 0; dy = 1; }
                    break;
                case 'ArrowLeft':
                    if (dx !== 1) { dx = -1; dy = 0; }
                    break;
                case 'ArrowRight':
                    if (dx !== -1) { dx = 1; dy = 0; }
                    break;
                case ' ':
                    if (!isGameRunning && gameOverMenu.style.display !== 'flex') {
                        initGame();
                    }
                    break;
            }
        });

        // 読み込み時にゲームを開始
        initGame();
    </script>
</body>
</html>
```

### 遊び方
1.  **上のコードをコピー** してください。
2.  コンピュータ上に `snake.html` という新しいファイルを作成してください。
3.  **そのファイルにコードを貼り付け** て保存してください。
4.  `snake.html` をダブルクリックしてブラウザで開いてください。

### 操作方法
*   **矢印キー**：上、下、左、右に移動します。
*   **スペースバー**：ゲームを開始します（まだ開始していない場合）。
*   **もう一度遊ぶボタン**：クラッシュしたときに表示され、ゲームを再開できます。

### このバージョンの特徴
*   **グリッドベースの移動**：クラシックなレトロ感。
*   **スコア追跡**：リアルタイムで更新されます。
*   **ゲームオーバー画面**：最終スコアを表示し、簡単に再スタートできます。
*   **衝突検知**：壁または自分自身に当たるとゲームが終了します。
*   **自己衝突の安全処理**：このコードは、単純なチュートリアルでよく見られる“尾のスキップ”ロジックによって食べ物を食べた直後に誤って自己を食べてしまうことを防ぎます。

💻 vLLMデプロイメント

Z.aiのFP8バージョンのモデルをvLLM経由で提供できます。860GB以上のVRAMが必要なため、8xH200（141x8 = 1128GB）が最低推奨です。8xB200でも良好に動作します。まず、vllm nightlyをインストールしてください：

uv pip install --upgrade --force-reinstall vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly/cu130
uv pip install --upgrade --force-reinstall git+https://github.com/huggingface/transformers.git
uv pip install --force-reinstall numba

FP8 KVキャッシュを無効にして（メモリ使用量を50%削減）、次を削除してください： --kv-cache-dtype fp8

export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:False
vllm serve unsloth/GLM-5-FP8 \
    --served-model-name unsloth/GLM-5-FP8 \ \
    --kv-cache-dtype fp8 \
    --tensor-parallel-size 8 \
    --tool-call-parser glm47 \
    --reasoning-parser glm45 \
    --enable-auto-tool-choice \
    --dtype bfloat16 \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --max-model-len 200000 \
    --gpu-memory-utilization 0.93 \
    --max_num_batched_tokens 4096 \
    --speculative-config.method mtp \
    --speculative-config.num_speculative_tokens 1 \
    --port 8001

その後、OpenAI APIを介してサーブされたモデルを呼び出すことができます：

from openai import AsyncOpenAI, OpenAI
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8001/v1"
client = OpenAI( # または AsyncOpenAI
    api_key = openai_api_key,
    base_url = openai_api_base,
)

🔨GLM 5によるツールコーリング

print(completion.choices[0].message.content) Tool Calling Guide GLM 4.7でのツール呼び出し

詳細については
を参照してください。ツール呼び出しの方法についての詳細です。新しいターミナルで（tmuxを使っている場合はCTRL+B+Dを使用）、2つの数を加える、Pythonコードを実行する、Linuxコマンドを実行するなどのツールを作成します：
import json, subprocess, random
    from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
        def write_a_story() -> str:
        return random.choice([
        "A long time ago in a galaxy far far away...",
        "There were 2 friends who loved sloths and code...",
    ])
"The world was ending because every sloth evolved to have superhuman intelligence...",
    "Unbeknownst to one friend, the other accidentally coded a program to evolve sloths...",
        def terminal(command: str) -> str:
        if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
    msg = "Cannot execute 'rm, sudo, dd, chmod' commands since they are dangerous"
    print(msg); return msg
        print(f"Executing terminal command `{command}`")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
except subprocess.CalledProcessError as e:
    return f"Command failed: {e.stderr}"
    def python(code: str) -> str:
    data = {}
    exec(code, data)
del data["__builtins__"]
    return str(data)
    MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
}
"terminal": terminal,
    {
        "python": python,
        tools = [
            "type": "function",
            "function": {
            "name": "add_number",
                "description": "Add two numbers.",
                "parameters": {
                    "type": "object",
                        "properties": {
                        "a": {
                    },
                    "type": "string",
                        "properties": {
                        "description": "The first number.",
                    },
                },
                "b": {
            },
        },
    },
    {
        "python": python,
        tools = [
            "description": "The second number.",
            "required": ["a", "b"],
            "name": "add_number",
                "description": "Add two numbers.",
                "parameters": {
                    "type": "object",
                        "properties": {
                        "a": {
                    },
                    "type": "string",
                        "properties": {
                        "description": "The first number.",
                    },
                },
                "b": {
            },
        },
    },
    {
        "python": python,
        tools = [
            "name": "multiply_number",
            "description": "Multiply two numbers.",
            "name": "add_number",
                "description": "Add two numbers.",
                "parameters": {
                    "type": "object",
                        "properties": {
                        "a": {
                    },
                    "type": "string",
                        "properties": {
                        "description": "The first number.",
                    },
                },
                "b": {
            },
        },
    },
    {
        "python": python,
        tools = [
            "name": "substract_number",
            "description": "Substract two numbers.",
            "name": "add_number",
                "description": "Add two numbers.",
                "name": "write_a_story",
                "description": "Writes a random story.",
            },
        },
    },
    {
        "python": python,
        tools = [
            "properties": {},
            "required": [],
            "name": "add_number",
                "description": "Add two numbers.",
                "parameters": {
                    "name": "terminal",
                        "properties": {
                        "description": "Perform operations from the terminal.",
                    },
                },
                "command": {
            },
        },
    },
    {
        "python": python,
        tools = [
            "description": "The command you wish to launch, e.g `ls`, `rm`, ...",
            "required": ["command"],
            "name": "add_number",
                "description": "Add two numbers.",
                "parameters": {
                    "name": "python",
                        "properties": {
                        "description": "Call a Python interpreter with some Python code that will be ran.",
                    },
                },
                "code": {
            },
        },
    },
]

"description": "The Python code to run",

from openai import OpenAI
"required": ["code"],
    次に以下の関数を使用します（コピーして貼り付けて実行してください）。これらは関数呼び出しを自動的に解析し、任意のモデルに対してOpenAIエンドポイントを呼び出します：
    temperature = 1.0,
    messages,
    top_k = -1,
    top_p = 0.95,
    top_k = 40,
):
    min_p = 0.01,
    from openai import OpenAI
        import json
        openai_client = OpenAI(
    )
    repetition_penalty = 1.0,
    messages = messages.copy()
    model_name = next(iter(openai_client.models.list())).id
    print(f"Using model = {model_name}")
    has_tool_calls = True
        original_messages_len = len(messages)
        while has_tool_calls:
            print(f"Current messages = {messages}")
            response = openai_client.chat.completions.create(
            model = model_name,
            messages = messages,
            temperature = temperature,
            top_p = top_p,
            tools = tools if tools else None,
        )
        tool_choice = "auto" if tools else None,
        extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
        tool_calls = response.choices[0].message.tool_calls or []
        content = response.choices[0].message.content or ""
        tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
            messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
            for tool_call in tool_calls:
            fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
        out = MAP_FN[fx](**json.loads(args))
            messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
    else:

GLM 5を起動した後、 return messages GLM 4.7を GLM-5 llama-server Tool Calling Guide 詳細については、その後いくつかのツールコールを行うことができます。

📊 ベンチマーク

以下で表形式のベンチマークをさらに確認できます：

ベンチマーク

GLM-5

GLM-4.7

DeepSeek-V3.2

Kimi K2.5

Claude Opus 4.5

Gemini 3 Pro

GPT-5.2 (xhigh)

HLE

30.5

24.8

25.1

31.5

28.4

37.2

35.4

HLE（ツールあり）

50.4

42.8

40.8

51.8

43.4*

45.8*

45.5*

AIME 2026 I

92.7

92.9

92.7

92.5

93.3

90.6

HMMT 2025年11月

96.9

93.5

90.2

91.1

91.7

93.0

97.1

IMOAnswerBench

82.5

82.0

78.3

81.8

78.5

83.3

86.3

GPQA-Diamond

86.0

85.7

82.4

87.6

87.0

91.9

92.4

SWE-bench 検証済み

77.8

73.8

73.1

76.8

80.9

76.2

80.0

SWE-bench 多言語

73.3

66.7

70.2

73.0

77.5

65.0

72.0

Terminal-Bench 2.0（Terminus 2）

56.2 / 60.7 †

41.0

39.3

50.8

59.3

54.2

54.0

Terminal-Bench 2.0（Claude Code）

56.2 / 61.1 †

32.8

46.4

57.9

CyberGym

43.2

23.5

17.3

41.3

50.6

39.9

BrowseComp

62.0

52.0

51.4

60.6

37.0

37.8

BrowseComp（コンテキスト管理あり）

75.9

67.5

67.6

74.9

67.8

59.2

65.8

BrowseComp-Zh

72.7

66.6

65.0

62.3

62.4

66.8

76.1

τ²-Bench

89.7

87.4

85.3

80.2

91.6

90.7

85.5

MCP-Atlas（公開セット）

67.8

52.0

62.2

63.8

65.2

66.6

68.0

Tool-Decathlon

38.0

23.8

35.2

27.8

43.5

36.4

46.3

Vending Bench 2

$4,432.12

$2,376.82

$1,034.00

$1,198.46

$4,967.06

$5,478.16

$3,591.33

前へKimi K2.5 次へgpt-oss

最終更新 7 時間前

役に立ちましたか？

hashtag⚙️ 使用ガイド

hashtag推奨設定

hashtagGLM-5チュートリアルを実行する：

hashtag✨ llama.cppで実行する

hashtag🦙 Llama-serverのサービングとOpenAIのcompletionライブラリ

hashtag💻 vLLMデプロイメント

hashtag🔨GLM 5によるツールコーリング

hashtag📊 ベンチマーク

⚙️ 使用ガイド

推奨設定

GLM-5チュートリアルを実行する：

✨ llama.cppで実行する

🦙 Llama-serverのサービングとOpenAIのcompletionライブラリ

💻 vLLMデプロイメント

🔨GLM 5によるツールコーリング

📊 ベンチマーク