# GLM-4.6: ローカル実行ガイド

GLM-4.6 と **GLM-4.6V-Flash** は、Z.ai の最新の推論モデルで、 **Z.ai**でのコーディングおよびエージェントのベンチマークで SOTA 性能を達成しつつ、会話チャットの改善も実現しています。 [**GLM-4.6V-Flash**](#glm-4.6v-flash) **より小さい 9B モデルは 2025年12月にリリースされ、今すぐ実行することもできます。**

355B パラメータのフルモデルには **400GB** のディスク容量が必要ですが、Unsloth Dynamic 2-bit GGUF を使うとサイズは **135GB** (-**75%)**. [**GLM-4.6-GGUF**](https://huggingface.co/unsloth/GLM-4.6-GGUF)

{% hint style="success" %}
私たちは複数の [**チャットテンプレートの修正**](#unsloth-chat-template-fixes) を GLM-4.6 に対して行い、 `llama.cpp/llama-cli --jinja` が動作するようにしました。必ず `--jinja` のみを使用してください。そうしないと出力が間違ってしまいます！

私たちの量子化版のベンチマークをご要望でしたので、Aider Polyglot の結果を紹介します！ 私たちの Dynamic 3-bit DeepSeek V3.1 GGUF のスコアは **75.6%**&#x3067;、多くのフル精度SOTA LLMを上回っています。 [続きを読む。](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md)
{% endhint %}

すべてのアップロードは Unsloth [Dynamic 2.0](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md) を使用しており、SOTA の 5-shot MMLU と Aider の性能を実現します。つまり、量子化された GLM LLM を最小限の精度低下で実行およびファインチューニングできます。

**チュートリアルのナビゲーション：**

<a href="#glm-4.6v-flash" class="button secondary">GLM-4.6V-Flash を実行</a><a href="#glm-4.6" class="button secondary">GLM-4.6 を実行</a>

### :bug:Unsloth のチャットテンプレートとバグ修正

私たちが行った重要な修正の一つは、GGUF のプロンプト指定に関する問題への対処です。ここでは 2 回目のプロンプトが動作しませんでした。この問題は修正しましたが、私たちの修正がない GGUF ではこの問題は依然として残っています。たとえば、Unsloth ではない GLM-4.6 GGUF を使うと、1 回目の会話は問題なく動作しますが、2 回目で壊れます。

<figure><img src="/files/c22c96cf8eb60003bd1aa94716ae5835f568aabb" alt="" width="563"><figcaption></figcaption></figure>

これをチャットテンプレートで解決したため、私たちの版を使うと 2 回目以降の会話（3 回目、4 回目など）もエラーなしで動作します。ツール呼び出しにはまだいくつか問題があり、帯域の制約でまだ十分に調査できていません。これらの残っている問題については、すでに GLM チームに知らせています。

### :mag\_right:GLM 4.6V Flash の癖と修正

{% hint style="info" %}
GLM-4.6V-Flash は、中国語で推論し、中国語で出力する場合があります。これは私たちの量子化版に固有のものではなく、このモデルの癖です。推論と出力を英語に強制するには、システムプロンプトに「英語で応答し、英語で推論してください」と指定してください！
{% endhint %}

他の量子化プロバイダーの BF16 と Q8\_0 の量子化版もテストしましたが、いずれも中国語で推論しているようです。たとえば、seed 3407 で 2 つの別々の量子化版を、同じプロンプト「Python で Flappy Bird ゲームを作成して」で試すと、推論が中国語で表示されます:

{% columns %}
{% column %}

<figure><img src="/files/42f7bcb5bf4a9676c755ac34f2f11be2251673c3" alt=""><figcaption></figcaption></figure>
{% endcolumn %}

{% column %}

<figure><img src="/files/06ce66a3d9052bfb812003d639acdbd5f4ef99fc" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

「英語で推論してください」というシステムプロンプトを `--system-prompt "英語で応答してください"` llama.cpp で使うと、以下のようになります:

```bash
./llama.cpp/llama-cli -hf unsloth/GLM-4.6V-Flash-GGUF:BF16 \
    --jinja --temp 0.8 --top-p 0.6 --top-k 2 --repeat-penalty 1.1 --min-p 0.0 --seed 3407 \
    --prompt "Python で Flappy Bird ゲームを作成して" --system-prompt "英語で応答してください"
```

推論は中国語ですが、出力は英語になります。また、追加で「1+1 はいくつですか」と尋ねると、英語のみが返ります:

<figure><img src="/files/021f2457d5a2f2a7f617e80af4b14b1b85c926bc" alt="" width="375"><figcaption></figcaption></figure>

そして最後に、「英語で応答し、英語で推論してください」というシステムプロンプトを `--system-prompt "英語で応答し、英語で推論してください"` llama.cpp で使うと、以下のようになります:

```bash
./llama.cpp/llama-cli -hf unsloth/GLM-4.6V-Flash-GGUF:BF16 \
    --jinja --temp 0.8 --top-p 0.6 --top-k 2 --repeat-penalty 1.1 --min-p 0.0 --seed 3407 \
    --prompt "Python で Flappy Bird ゲームを作成して" \
    --system-prompt "英語で応答し、英語で推論してください"
```

推論も出力も英語になります！ また、追加で「1+1 はいくつですか」と尋ねると、英語のみが返ります:

<figure><img src="/files/3ab715f2ce24e2ce5015df836e6650674fad360a" alt=""><figcaption></figcaption></figure>

## :gear: 使用ガイド

2-bit 動的量子化の UD-Q2\_K\_XL は 135GB のディスク容量を使用します。これは **1x24GB カードと 128GB の RAM** で MoE オフローディングを使う構成でうまく動作します。1-bit の UD-TQ1 GGUF も **Ollama でネイティブに動作します**!

{% hint style="info" %}
使用する必要があります `--jinja` llama.cpp の量子化版ではこれを使ってください。これは当社の [固定チャットテンプレート](#chat-template-bug-fixes) を使用し、正しいテンプレートを有効にします。使用しないと、誤った結果になる可能性があります `--jinja`
{% endhint %}

4-bit の量子化版は 1x 40GB GPU に収まります（MoE レイヤーは RAM にオフロード）。さらに 165GB の RAM もあれば、この構成で約 5 tokens/s が期待できます。この 4-bit を実行するには、少なくとも 205GB の RAM が推奨されます。最適な性能を得るには、少なくとも 205GB のユニファイドメモリ、または 5+ tokens/s のために 205GB の合計 RAM+VRAM が必要です。生成速度を上げ、より長いコンテキストに収める方法を学ぶには、 [こちらをお読みください](#improving-generation-speed).

{% hint style="success" %}
必須ではありませんが、最高の性能を得るには、VRAM + RAM の合計をダウンロードする量子化モデルのサイズと同じにしてください。そうでない場合でも、llama.cpp ではハードドライブ / SSD へのオフロードが動作しますが、推論速度は遅くなります。
{% endhint %}

### 推奨設定

Z.ai によると、GLM-4.6V-Flash と GLM-4.6 の推論には異なる設定があります:

| GLM-4.6V-Flash                                                     | GLM-4.6                                                                    |
| ------------------------------------------------------------------ | -------------------------------------------------------------------------- |
| <mark style="background-color:green;">**temperature = 0.8**</mark> | <mark style="background-color:green;">**temperature = 1.0**</mark>         |
| <mark style="background-color:green;">**top\_p = 0.6**</mark> （推奨） | <mark style="background-color:green;">**top\_p = 0.95**</mark> （コーディングに推奨） |
| <mark style="background-color:green;">**top\_k = 2**</mark> （推奨）   | <mark style="background-color:green;">**top\_k = 40**</mark> （コーディングに推奨）   |
| **128Kのコンテキスト長** 以下                                                | **200K のコンテキスト長** 以下                                                       |
| **repeat\_penalty = 1.1**                                          |                                                                            |
| **max\_generate\_tokens = 16,384**                                 | **max\_generate\_tokens = 16,384**                                         |

* 使用 `--jinja` llama.cpp 版ではこれを使ってください。私たちは **いくつかのチャットテンプレートの問題も修正しました！**

## GLM-4.6 チュートリアルを実行:

実行手順のステップごとのガイドはこちらです。 [GLM-4.6V-Flash](#glm-4.6v-flash) および大型の [GLM-4.6](#glm-4.6) モデル。

### GLM-4.6V-Flash

{% hint style="success" %}
**2025年12月16日時点の新情報: GLM-4.6-V がビジョンサポート対応に更新されました！**
{% endhint %}

#### ✨ llama.cpp で実行

{% stepper %}
{% step %}
最新の `llama.cpp` を [GitHub](https://github.com/ggml-org/llama.cpp)。以下のビルド手順も使用できます。変更してください `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 **Apple Mac / Metal デバイスの場合**、次を設定して `-DGGML_CUDA=OFF` その後は通常どおり続けてください - Metal サポートは既定で有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
もし `llama.cpp` モデルを直接読み込むには、以下の方法も使えます。(:Q8\_K\_XL) は量子化タイプです。Hugging Face 経由でダウンロードすることもできます（3番）。これは次に似ています `ollama run` に似ています。使用 `export LLAMA_CACHE="folder"` して `llama.cpp` 特定の場所に保存するよう強制できます。モデルの最大コンテキスト長は 128K のみであることを覚えておいてください。

```bash
export LLAMA_CACHE="unsloth/GLM-4.6V-Flash-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/GLM-4.6V-Flash-GGUF:UD-Q8_K_XL \
    --n-gpu-layers 99 \\
    --jinja \
    --ctx-size 16384 \\
    --flash-attn on \
    --temp 0.8 \
    --top-p 0.6 \
    --top-k 2 \
    --repeat-penalty 1.1 \
    -ot ".ffn_.*_exps.=CPU"
```

{% endstep %}

{% step %}
モデルのダウンロード（ `pip install huggingface_hub hf_transfer` のインストール後）。 `を選べます`Q4\_K\_XL（動的 4bit 量子化）や、次のような他の量子化版 `Q8_K_XL` .

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # レート制限されることがあるので、無効化するには 0 に設定
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/GLM-4.6V-Flash-GGUF",
    local_dir = "unsloth/GLM-4.6V-Flash-GGUF",
    allow_patterns = ["*UD-Q8_K_XL*"],
)
```

{% endstep %}
{% endstepper %}

### GLM-4.6

#### :llama: Ollama で実行

{% stepper %}
{% step %}
インストール `ollama` まだならインストールしてください！モデルの他のバリアントを実行するには、 [こちらを参照](https://unsloth.ai/docs/jp/moderu/tutorials/pages/1076a52a5c3ebf51b7a9fff0968fcea31aee4df1#run-in-llama.cpp).

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

{% endstep %}

{% step %}
モデルを実行します！失敗した場合は `ollama serve`を別の端末で呼び出せることに注意してください。修正内容と推奨パラメータ（temperature など）はすべて、Hugging Face のアップロード内の `params` に含まれています！

```
OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run hf.co/unsloth/GLM-4.6-GGUF:TQ1_0
```

{% endstep %}

{% step %}
他の量子化版を実行するには、まず以下のコードのように GGUF 分割ファイルを 1 つに結合する必要があります。その後、モデルをローカルで実行する必要があります。

```bash
./llama.cpp/llama-gguf-split --merge \\
  GLM-4.6-GGUF/GLM-4.6-UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
	merged_file.gguf
```

```bash
OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run merged_file.gguf
```

{% endstep %}
{% endstepper %}

#### ✨ llama.cpp で実行

{% stepper %}
{% step %}
最新の `llama.cpp` を [GitHub こちら](https://github.com/ggml-org/llama.cpp)から取得してください。以下のビルド手順に従うこともできます。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
もし `llama.cpp` を使ってモデルを読み込みたい場合は、以下を実行できます：（:Q2\_K\_XL）は量子化タイプです。Hugging Face 経由でダウンロードすることもできます（3番目）。これは `ollama run` に似ています。使用 `export LLAMA_CACHE="folder"` して `llama.cpp` 特定の場所に保存するよう強制できます。モデルの最大コンテキスト長は 128K のみであることを覚えておいてください。

{% hint style="success" %}
ぜひ試してみてください `-ot ".ffn_.*_exps.=CPU"` すべての MoE レイヤーを CPU にオフロードします！これにより、非 MoE レイヤーを 1 枚の GPU に収められるようになり、生成速度が向上します。GPU 容量がさらにある場合は、正規表現を調整してより多くのレイヤーを収めることができます。

GPU メモリがもう少し多い場合は、試してみてください `-ot ".ffn_(up|down)_exps.=CPU"` これにより、アップ投影とダウン投影の MoE レイヤーがオフロードされます。

試してみてください `-ot ".ffn_(up)_exps.=CPU"` GPU メモリがさらに多い場合は、これを使ってください。これにより、アップ投影の MoE レイヤーのみがオフロードされます。

そして最後に、 `-ot ".ffn_.*_exps.=CPU"` を使ってすべてのレイヤーをオフロードします。

これは最も少ない VRAM を使用します。 `正規表現をカスタマイズすることもできます。例えば` -ot "\\.(6|7|8|9|\[0-9]\[0-9]|\[0-9]\[0-9]\[0-9])\\.ffn\_(gate|up|down)\_exps.=CPU"
{% endhint %}

```bash
export LLAMA_CACHE="unsloth/GLM-4.6-GGUF"
./llama.cpp/llama-cli \\
    --model GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
    --n-gpu-layers 99 \\
    --jinja \
    --ctx-size 16384 \\
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 40 \
    -ot ".ffn_.*_exps.=CPU"
```

{% endstep %}

{% step %}
モデルのダウンロード（ `pip install huggingface_hub hf_transfer` のインストール後）。 `を選べます`UD- `Q4_K_XL` 私たちは <mark style="background-color:green;">**当社の 2.7bit 動的量子化版の使用を推奨します**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**`UD-Q2_K_XL`**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**サイズと精度のバランスを取るためです**</mark>.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # レート制限されることがあるので、無効化するには 0 に設定
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/GLM-4.6-GGUF",
    local_dir = "unsloth/GLM-4.6-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"], # 動的2bit 1bit動的版には "*UD-TQ1_0*" を使用
)
```

{% endstep %}

{% step %}
編集できます `--threads 32` CPU スレッド数を `--ctx-size 16384` コンテキスト長を `--n-gpu-layers 2` GPU オフロードする層数を指定します。GPU のメモリ不足になる場合は調整してみてください。CPU のみで推論する場合は、これも削除してください。

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
    --jinja \
    --n-gpu-layers 99 \\
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 40 \
    --ctx-size 16384 \\
    --seed 3407 \\
    -ot ".ffn_.*_exps.=CPU"
```

{% endcode %}
{% endstep %}
{% endstepper %}

### ✨ llama-server と OpenAI の completion ライブラリでデプロイ

デプロイに llama-server を使うには、以下のコマンドを使ってください：

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \\
    --model unsloth/GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \
    --alias "unsloth/GLM-4.6" \
    --n-gpu-layers 999 \\
    -ot ".ffn_.*_exps.=CPU" \
    --prio 3 \\
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 40 \
    --ctx-size 16384 \\
    --port 8001 \\
    --jinja
```

{% endcode %}

その後、OpenAI の Python ライブラリを使います `pip install openai` :

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/GLM-4.6",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)
```

### :minidisc:モデルのアップロード

**すべてのアップロード** - そのうち imatrix ベースでも動的でもないものも含め、会話・コーディング・言語タスクに特化して最適化されたキャリブレーションデータセットを利用しています。

* 以下に GLM-4.6 の完全なモデルアップロード:

また、次もアップロードしました [IQ4\_NL](https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/IQ4_NL) および [Q4\_1](https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF/tree/main/Q4_1) の量子化版で、ARMおよびAppleデバイス向けに特に高速に動作します。

<table data-full-width="false"><thead><tr><th>MoE ビット数</th><th>種類 + リンク</th><th>ディスクサイズ</th><th>詳細</th></tr></thead><tbody><tr><td>1.66bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF?show_file_info=GLM-4.6-UD-TQ1_0.gguf">TQ1_0</a></td><td><strong>84GB</strong></td><td>1.92/1.56bit</td></tr><tr><td>1.78bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ1_S">IQ1_S</a></td><td><strong>96GB</strong></td><td>2.06/1.56bit</td></tr><tr><td>1.93bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ1_M">IQ1_M</a></td><td><strong>107GB</strong></td><td>2.5/2.06/1.56</td></tr><tr><td>2.42bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ2_XXS">IQ2_XXS</a></td><td><strong>115GB</strong></td><td>2.5/2.06bit</td></tr><tr><td>2.71bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q2_K_XL">Q2_K_XL</a></td><td><strong>135GB</strong></td><td>3.5/2.5bit</td></tr><tr><td>3.12bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ3_XXS">IQ3_XXS</a></td><td><strong>145GB</strong></td><td>3.5/2.06bit</td></tr><tr><td>3.5bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q3_K_XL">Q3_K_XL</a></td><td><strong>158GB</strong></td><td>4.5/3.5bit</td></tr><tr><td>4.5bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q4_K_XL">Q4_K_XL</a></td><td><strong>204GB</strong></td><td>5.5/4.5bit</td></tr><tr><td>5.5bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q5_K_XL">Q5_K_XL</a></td><td><strong>252GB</strong></td><td>6.5/5.5bit</td></tr></tbody></table>

### :snowboarder: 生成速度の改善

VRAM がさらにある場合は、より多くの MoE レイヤーをオフロードするか、レイヤー全体をオフロードすることができます。

通常、 `-ot ".ffn_.*_exps.=CPU"` すべての MoE レイヤーを CPU にオフロードします！これにより、非 MoE レイヤーを 1 枚の GPU に収められるようになり、生成速度が向上します。GPU 容量がさらにある場合は、正規表現を調整してより多くのレイヤーを収めることができます。

GPU メモリがもう少し多い場合は、試してみてください `-ot ".ffn_(up|down)_exps.=CPU"` これにより、アップ投影とダウン投影の MoE レイヤーがオフロードされます。

試してみてください `-ot ".ffn_(up)_exps.=CPU"` GPU メモリがさらに多い場合は、これを使ってください。これにより、アップ投影の MoE レイヤーのみがオフロードされます。

これは最も少ない VRAM を使用します。 `正規表現をカスタマイズすることもできます。例えば` -ot "\\.(6|7|8|9|\[0-9]\[0-9]|\[0-9]\[0-9]\[0-9])\\.ffn\_(gate|up|down)\_exps.=CPU"

Llama.cpp には高スループットモードも導入されています。使用 `llama-parallel`。詳細は [こちら](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel)。また **KV キャッシュを 4bit に量子化することもできます** たとえば、VRAM / RAM 間の移動を減らし、生成処理をさらに高速化できます。

### 📐長いコンテキスト（フル 200K）を収める方法

より長いコンテキストを収めるには、 **KV キャッシュ量子化** を使って K と V のキャッシュをより低いビットに量子化できます。これにより、RAM / VRAM のデータ移動が減るため、生成速度も向上します。K の量子化で許可されるオプション（デフォルトは `f16`）は以下を含みます。

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

多少の精度向上のために `_1` 版を使うべきですが、少し遅くなります。例： `q4_1, q5_1`

V キャッシュも量子化できますが、 **Flash Attention サポート付きで llama.cpp をコンパイルする必要があります** を `-DGGML_CUDA_FA_ALL_QUANTS=ON`で有効化し、 `--flash-attn` を使って有効にします。その後、 `--cache-type-k` :

`と一緒に、--cache-type-v f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1 を使用できます`


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/tutorials/glm-4.6-how-to-run-locally.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
