> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/jp/moderu/tutorials/glm-4.6-how-to-run-locally.md).

# GLM-4.6: ローカル実行ガイド

GLM-4.6 と **GLM-4.6V-Flash** は、以下から登場した最新の推論モデルです **Z.ai**。コーディングとエージェントのベンチマークでSOTA性能を達成しつつ、より改善された対話チャットを提供します。 [**GLM-4.6V-Flash**](#glm-4.6v-flash) **より小さい9Bモデルは2025年12月にリリースされ、今すぐ実行できます。**

フル版の355Bパラメータモデルには **400GB** のディスク容量が必要ですが、Unsloth Dynamic 2-bit GGUFならサイズは **135GB** (-**75%)**. [**GLM-4.6-GGUF**](https://huggingface.co/unsloth/GLM-4.6-GGUF)

{% hint style="success" %}
最良の性能のため、利用可能な総メモリ（VRAM + システムRAM）が、ダウンロードする量子化モデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cppはSSD/HDDオフロード経由で実行できますが、推論はより遅くなります。
{% endhint %}

すべてのアップロードは Unsloth [Dynamic 2.0](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md) SOTAの5-shot MMLUとAiderの性能向けであり、量子化されたGLM LLMを最小限の精度低下で実行・ファインチューニングできます。

**チュートリアルのナビゲーション:**

<a href="#glm-4.6v-flash" class="button secondary">GLM-4.6V-Flash を実行</a><a href="#glm-4.6" class="button secondary">GLM-4.6 を実行</a>

### :bug:Unslothのチャットテンプレートとバグ修正

私たちが行った重要な修正の一つは、GGUFへのプロンプト送信に関する問題への対応です。この問題では、2回目のプロンプトが機能しませんでした。私たちはこの問題を修正しましたが、この修正がないGGUFでは依然として問題が残ります。たとえば、Unsloth以外のGLM-4.6 GGUFを使うと、最初の会話は問題なく動作しますが、2回目は壊れます。

<figure><img src="/files/c22c96cf8eb60003bd1aa94716ae5835f568aabb" alt="" width="563"><figcaption></figcaption></figure>

この点はチャットテンプレートで解決したため、私たちの版を使う場合は2回目以降（3回目、4回目など）の会話もエラーなしで動作します。ツール呼び出しにはまだいくつか問題が残っていますが、帯域幅の制約のため、まだ十分に調査できていません。これらの残りの問題については、すでにGLMチームに伝えています。

### :mag\_right:GLM 4.6V Flash の癖と修正

{% hint style="info" %}
GLM-4.6V-Flash は、中国語で推論し、中国語で出力する場合があります。これは私たちの量子化版に特有のものではなく、モデル固有の癖です。「英語で応答し、英語で推論して」といったシステムプロンプトを使うと、推論も出力も英語に強制できます。
{% endhint %}

他の量子化提供元のBF16およびQ8\_0量子化版もテストしましたが、どれも中国語で推論しているようでした。たとえば、seed 3407で別々の2つの量子化版を使い、同じプロンプト「PythonでFlappy Birdゲームを作って」では、中国語での推論が表示されます。

{% columns %}
{% column %}

<figure><img src="/files/42f7bcb5bf4a9676c755ac34f2f11be2251673c3" alt=""><figcaption></figcaption></figure>
{% endcolumn %}

{% column %}

<figure><img src="/files/06ce66a3d9052bfb812003d639acdbd5f4ef99fc" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

次のように「英語で推論」といったシステムプロンプトを使うことで `--system-prompt "英語で応答してください"` llama.cppで、つまり以下のようにします:

```bash
./llama.cpp/llama-cli -hf unsloth/GLM-4.6V-Flash-GGUF:BF16 \\
    --jinja --temp 0.8 --top-p 0.6 --top-k 2 --repeat-penalty 1.1 --min-p 0.0 --seed 3407 \\
    --prompt "PythonでFlappy Birdゲームを作って" --system-prompt "英語で応答してください"
```

すると、中国語で推論し、出力は英語になります。また、続けて「1+1は？」と尋ねると、英語のみが返ります:

<figure><img src="/files/021f2457d5a2f2a7f617e80af4b14b1b85c926bc" alt="" width="375"><figcaption></figcaption></figure>

そして最後に、「英語で応答し、英語で推論して」というシステムプロンプトを次のように使うと `--system-prompt "英語で応答し、英語で推論してください"` llama.cppで、つまり以下のようにします:

```bash
./llama.cpp/llama-cli -hf unsloth/GLM-4.6V-Flash-GGUF:BF16 \\
    --jinja --temp 0.8 --top-p 0.6 --top-k 2 --repeat-penalty 1.1 --min-p 0.0 --seed 3407 \\
    --prompt "PythonでFlappy Birdゲームを作って" \\
    --system-prompt "英語で応答し、英語で推論してください"
```

英語で推論し、英語で出力されます！また、続けて「1+1は？」と尋ねると、英語のみが返ります:

<figure><img src="/files/3ab715f2ce24e2ce5015df836e6650674fad360a" alt=""><figcaption></figcaption></figure>

## :gear: 使い方ガイド

2-bitのダイナミック量子化UD-Q2\_K\_XLは135GBのディスク容量を使用します - これは次の環境でうまく動作します **1枚の24GBカードと128GBのRAM** を使ったMoEオフロード環境で。1-bitのUD-TQ1 GGUFも **Ollamaでネイティブに動作します**!

{% hint style="info" %}
必ず `--jinja` をllama.cppの量子化版で使用してください - これにより [修正済みのチャットテンプレート](#chat-template-bug-fixes) が使われ、正しいテンプレートが有効になります！ `--jinja`
{% endhint %}

4-bit版は、1枚の40GB GPU（MoE層をRAMへオフロード）に収まります。この構成に加えて165GBの余分なRAMがあれば、速度はおよそ5 tokens/s程度になると予想してください。この4-bit版を動かすには、少なくとも205GBのRAMが推奨されます。最適な性能には、少なくとも205GBのユニファイドメモリ、または205GBのRAM+VRAM合計が必要で、5+ tokens/sを目指せます。生成速度を上げ、より長いコンテキストに対応する方法を学ぶには、 [こちらを読んでください](#improving-generation-speed).

{% hint style="success" %}
必須ではありませんが、最良の性能のためには、VRAM + RAMの合計がダウンロードする量子化版のサイズと同じくらいあるとよいです。そうでない場合でも、HDD / SSDオフロードはllama.cppで動作しますが、推論はより遅くなります。
{% endhint %}

### 推奨設定

Z.aiによると、GLM-4.6V-Flash と GLM-4.6 の推論には異なる設定があります:

| GLM-4.6V-Flash                                                     | GLM-4.6                                                                     |
| ------------------------------------------------------------------ | --------------------------------------------------------------------------- |
| <mark style="background-color:green;">**temperature = 0.8**</mark> | <mark style="background-color:green;">**temperature = 1.0**</mark>          |
| <mark style="background-color:green;">**top\_p = 0.6**</mark> （推奨） | <mark style="background-color:green;">**top\_p = 0.95**</mark> （コーディング向け推奨） |
| <mark style="background-color:green;">**top\_k = 2**</mark> （推奨）   | <mark style="background-color:green;">**top\_k = 40**</mark> （コーディング向け推奨）   |
| **128Kのコンテキスト長** 以下                                                | **200Kのコンテキスト長** 以下                                                         |
| **repeat\_penalty = 1.1**                                          |                                                                             |
| **max\_generate\_tokens = 16,384**                                 | **max\_generate\_tokens = 16,384**                                          |

* 使用 `--jinja` をllama.cpp版で使ってください - 私たちは **いくつかのチャットテンプレートの問題も修正しました！**

## GLM-4.6 実行チュートリアル:

GLM-4.6を実行するための手順ガイドをご覧ください [GLM-4.6V-Flash](#glm-4.6v-flash) および大型 [GLM-4.6](#glm-4.6) モデル。

### GLM-4.6V-Flash

{% hint style="success" %}
**2025年12月16日時点の新情報: GLM-4.6-V がビジョン対応で更新されました！**
{% endhint %}

#### ✨ llama.cppで実行

{% stepper %}
{% step %}
最新の `llama.cpp` を [GitHub](https://github.com/ggml-org/llama.cpp)。以下のビルド手順も使用できます。変更してください `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを行いたい場合です。 **Apple Mac / Metal デバイスでは**、次を設定し、 `-DGGML_CUDA=OFF` その後は通常どおり進めてください。Metal サポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
を使いたい場合は `llama.cpp` モデルを直接読み込むには、以下のようにできます（:Q8\_K\_XL）は量子化タイプです。Hugging Face経由でもダウンロードできます（ポイント3）。これは次と似ています `ollama run` に似ています。 `export LLAMA_CACHE="folder"` を使って、 `llama.cpp` 特定の場所に保存するためです。モデルの最大コンテキスト長は128Kのみであることを忘れないでください。

```bash
export LLAMA_CACHE="unsloth/GLM-4.6V-Flash-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/GLM-4.6V-Flash-GGUF:UD-Q8_K_XL \\
    --n-gpu-layers 99 \\
    --jinja \\
    --ctx-size 16384 \\
    --flash-attn on \\
    --temp 0.8 \\
    --top-p 0.6 \\
    --top-k 2 \\
    --repeat-penalty 1.1 \\
    -ot ".ffn_.*_exps.=CPU"
```

{% endstep %}

{% step %}
以下でモデルをダウンロードしてください（インストール後に `pip install huggingface_hub hf_transfer` ）。次を選べます `UD-`Q4\_K\_XL（動的4bit量子化）や、以下のような他の量子化版 `Q8_K_XL` .

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 速度制限されることがあるため、0 に設定して無効化
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/GLM-4.6V-Flash-GGUF",
    local_dir = "unsloth/GLM-4.6V-Flash-GGUF",
    allow_patterns = ["*UD-Q8_K_XL*"],
)
```

{% endstep %}
{% endstepper %}

### GLM-4.6

#### :llama: Ollamaで実行

{% stepper %}
{% step %}
インストール `ollama` まだなら！モデルの他のバリアントを実行するには、 [こちらを参照](https://unsloth.ai/docs/jp/moderu/tutorials/pages/1076a52a5c3ebf51b7a9fff0968fcea31aee4df1#run-in-llama.cpp).

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

{% endstep %}

{% step %}
モデルを実行してください！失敗した場合は、 `ollama serve`を別の端末で呼び出せます。修正点と推奨パラメータ（temperature など）はすべて `params` の Hugging Face アップロードに含めています！

```
OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run hf.co/unsloth/GLM-4.6-GGUF:TQ1_0
```

{% endstep %}

{% step %}
他の量子化版を実行するには、まず以下のコードのようにGGUF分割ファイルを1つに結合する必要があります。その後、モデルをローカルで実行します。

```bash
./llama.cpp/llama-gguf-split --merge \\
  GLM-4.6-GGUF/GLM-4.6-UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \\
	merged_file.gguf
```

```bash
OLLAMA_MODELS=unsloth ollama serve &

OLLAMA_MODELS=unsloth ollama run merged_file.gguf
```

{% endstep %}
{% endstepper %}

#### ✨ llama.cppで実行

{% stepper %}
{% step %}
最新の `llama.cpp` を [GitHub こちらから](https://github.com/ggml-org/llama.cpp)入手してください。以下のビルド手順に従うこともできます。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを行いたい場合です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
を使いたい場合は `llama.cpp` モデルを直接読み込むには、以下のようにできます（:Q2\_K\_XL）は量子化タイプです。Hugging Face経由でもダウンロードできます（ポイント3）。これは次と似ています `ollama run` に似ています。 `export LLAMA_CACHE="folder"` を使って、 `llama.cpp` 特定の場所に保存するためです。モデルの最大コンテキスト長は128Kのみであることを忘れないでください。

{% hint style="success" %}
ぜひ試してください `-ot ".ffn_.*_exps.=CPU"` すべての MoE レイヤーを CPU にオフロードします。これにより、非 MoE レイヤーを 1 枚の GPU に収められ、生成速度が向上します。GPU 容量がさらにある場合は、正規表現を調整してより多くのレイヤーを収めることができます。

GPU メモリがもう少しある場合は、 `-ot ".ffn_(up|down)_exps.=CPU"` を試してください。

さらに GPU メモリがあるなら、 `-ot ".ffn_(up)_exps.=CPU"` を試してください。これで up projection の MoE レイヤーのみをオフロードします。

そして最後に、次を使ってすべてのレイヤーをオフロードします `-ot ".ffn_.*_exps.=CPU"` これが最も少ない VRAM を使用します。

正規表現をカスタマイズすることもできます。例えば `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` は、6層目以降の gate、up、down の MoE レイヤーをオフロードすることを意味します。
{% endhint %}

```bash
export LLAMA_CACHE="unsloth/GLM-4.6-GGUF"
./llama.cpp/llama-cli \\
    --model GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \\
    --n-gpu-layers 99 \\
    --jinja \\
    --ctx-size 16384 \\
    --flash-attn on \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 40 \\
    -ot ".ffn_.*_exps.=CPU"
```

{% endstep %}

{% step %}
以下でモデルをダウンロードしてください（インストール後に `pip install huggingface_hub hf_transfer` ）。次を選べます `UD-`Q2\_K\_XL（動的2bit量子化）や、以下のような他の量子化版 `Q4_K_XL` も使えます。 <mark style="background-color:green;">**サイズと精度のバランスを取るには、私たちの 2.7bit 動的量子化版**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**`UD-Q2_K_XL`**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**の使用を推奨します**</mark>.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 速度制限されることがあるため、0 に設定して無効化
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/GLM-4.6-GGUF",
    local_dir = "unsloth/GLM-4.6-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"], # 動的2bit  動的1bitには "*UD-TQ1_0*" を使う
)
```

{% endstep %}

{% step %}
編集できます `--threads 32` CPU スレッド数について、 `--ctx-size 16384` コンテキスト長について、 `--n-gpu-layers 2` GPU オフロードするレイヤー数について。GPU がメモリ不足になったら調整してみてください。CPU のみで推論する場合は、これも削除してください。

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \\
    --jinja \\
    --n-gpu-layers 99 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 40 \\
    --ctx-size 16384 \\
    --seed 3407 \\
    -ot ".ffn_.*_exps.=CPU"
```

{% endcode %}
{% endstep %}
{% endstepper %}

### ✨ llama-server と OpenAIの completion ライブラリでデプロイ

デプロイに llama-server を使うには、次のコマンドを使用してください:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \\
    --model unsloth/GLM-4.6-GGUF/UD-Q2_K_XL/GLM-4.6-UD-Q2_K_XL-00001-of-00003.gguf \\
    --alias "unsloth/GLM-4.6" \\
    --n-gpu-layers 999 \\
    -ot ".ffn_.*_exps.=CPU" \\
    --prio 3 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 40 \\
    --ctx-size 16384 \\
    --port 8001 \\
    --jinja
```

{% endcode %}

その後、OpenAIのPythonライブラリを次のように使います `pip install openai` :

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/GLM-4.6",
    messages = [{"role": "user", "content": "2+2は何ですか？"},],
)
print(completion.choices[0].message.content)
```

### :minidisc:モデルのアップロード

**すべてのアップロードは** - imatrix ベースでも dynamic ベースでもないものを含め、会話・コーディング・言語タスク向けに特別に最適化された校正データセットを使用しています。

* フル版GLM-4.6モデルのアップロードは以下です:

また、 [IQ4\_NL](https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/IQ4_NL) と [Q4\_1](https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/Q4_1) の量子化版もアップロードしました。これらはそれぞれ ARM および Apple デバイスで特に高速に動作します。

<table data-full-width="false"><thead><tr><th>MoE ビット</th><th>タイプ + リンク</th><th>ディスクサイズ</th><th>詳細</th></tr></thead><tbody><tr><td>1.66bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF?show_file_info=GLM-4.6-UD-TQ1_0.gguf">TQ1_0</a></td><td><strong>84GB</strong></td><td>1.92/1.56bit</td></tr><tr><td>1.78bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ1_S">IQ1_S</a></td><td><strong>96GB</strong></td><td>2.06/1.56bit</td></tr><tr><td>1.93bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ1_M">IQ1_M</a></td><td><strong>107GB</strong></td><td>2.5/2.06/1.56</td></tr><tr><td>2.42bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ2_XXS">IQ2_XXS</a></td><td><strong>115GB</strong></td><td>2.5/2.06bit</td></tr><tr><td>2.71bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q2_K_XL">Q2_K_XL</a></td><td><strong>135GB</strong></td><td>3.5/2.5bit</td></tr><tr><td>3.12bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-IQ3_XXS">IQ3_XXS</a></td><td><strong>145GB</strong></td><td>3.5/2.06bit</td></tr><tr><td>3.5bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q3_K_XL">Q3_K_XL</a></td><td><strong>158GB</strong></td><td>4.5/3.5bit</td></tr><tr><td>4.5bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q4_K_XL">Q4_K_XL</a></td><td><strong>204GB</strong></td><td>5.5/4.5bit</td></tr><tr><td>5.5bit</td><td><a href="https://huggingface.co/unsloth/GLM-4.6-GGUF/tree/main/UD-Q5_K_XL">Q5_K_XL</a></td><td><strong>252GB</strong></td><td>6.5/5.5bit</td></tr></tbody></table>

### :snowboarder: 生成速度の改善

VRAMが多ければ、より多くのMoE層をオフロードするか、層そのものをまとめてオフロードすることができます。

通常は、 `-ot ".ffn_.*_exps.=CPU"` すべてのMoE層をCPUにオフロードします！これにより、MoE以外の全層を1枚のGPUに収められるようになり、生成速度が向上します。GPU容量がさらにある場合は、正規表現を調整してより多くの層を収めることができます。

GPU メモリがもう少しある場合は、 `-ot ".ffn_(up|down)_exps.=CPU"` を試してください。

さらに GPU メモリがあるなら、 `-ot ".ffn_(up)_exps.=CPU"` を試してください。これで up projection の MoE レイヤーのみをオフロードします。

正規表現をカスタマイズすることもできます。例えば `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` は、6層目以降の gate、up、down の MoE レイヤーをオフロードすることを意味します。

Llama.cpp には高スループットモードもあります。使用してください `llama-parallel`。詳細はこちらを [こちら](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel)をご覧ください。また、 **KVキャッシュを4bitに量子化することもできます** 。たとえばVRAM / RAM間のデータ移動を減らし、生成プロセスを速くすることができます。

### 📐長いコンテキストを収める方法（フル200K）

より長いコンテキストを収めるには、 **KVキャッシュ量子化** を使ってKとVのキャッシュを低ビットに量子化できます。これにより、RAM / VRAM間のデータ移動が減って生成速度も上がります。K量子化で許可されているオプション（デフォルトは `f16`）は以下のとおりです。

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

使用すべきなのは `_1` 版です。精度はわずかに向上しますが、少し遅くなります。例えば `q4_1, q5_1`

Vキャッシュも量子化できますが、そのためには **Flash Attention対応でllama.cppをコンパイルし** 、次の方法でサポートを有効にする必要があります `-DGGML_CUDA_FA_ALL_QUANTS=ON`、そして `--flash-attn` を使って有効化します。その後、次と併用できます `--cache-type-k` :

`--cache-type-v f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/tutorials/glm-4.6-how-to-run-locally.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
