# Kimi K2.6 - ローカル実行方法

Kimi K2.6 は Moonshot によるオープンモデルで、ビジョン、コーディング、エージェント型、長文コンテキスト、チャットの各タスクで SOTA の性能を発揮します。この 1 兆パラメータのハイブリッド思考モデルは 256K のコンテキスト長を持ち、完全精度では 610GB のディスク容量が必要です。Dynamic 2-bit では **350GB（-43% のサイズ）**。Unsloth Dynamic 経由で Kimi K2.6 を実行 [**Kimi-K2.6-GGUFs**](https://huggingface.co/unsloth/Kimi-K2.6-GGUF) を Unsloth Studio または llama.cpp 上で。

**Dynamic 2-bit** は重要なレイヤーを 8-bit にアップキャストし、 **350GB+ の VRAM/RAM** 構&#x6210;**.** 対象： **ロスレス** Kimi K2.6 には Q8（`UD-Q8_K_XL`）を使用してください。これは **わずか 10GB 大きい** だけで、Q4（`UD-Q4_K_XL`）よりも。すべてのアップロードは [Dynamic 2.0](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md) を使用しており、SOTA の量子化性能を実現します。Kimi-K2.6 GGUFs はさらに **ビジョンをサポートします。**

**表：ハードウェア要件** （単位 = 総メモリ: RAM + VRAM、またはユニファイドメモリ）

| 測定項目     | Dynamic 2-bit | Q4     | Q8（ロスレス） |
| -------- | ------------- | ------ | -------- |
| ディスク容量   | 340 GB        | 584 GB | 595 GB   |
| パープレキシティ | 2.4131        | 1.8420 | 1.8419   |

### 📊 量子化分析

`UD-Q8_K_XL` はロスレスです。これは Kimi が MoE 重みに int4 を使い、それ以外すべてに BF16 を使っており、さらに `Q8_K_XL` がそれに従っているためです。 `UD-Q4_K_XL` はこれに似ていますが、残りのテンソルが `Q8_0`である点が異なります。そのため、ほぼ完全精度であり、600GB の RAM/VRAM が必要です。他のプロバイダーによる非 Unsloth GGUF は、 `UD-Q4_K_XL` のアプローチに従う可能性があり、「真にロスレス」ではない場合があります `UD-Q8_K_XL`.

私たちは [jukofyork](https://github.com/jukofyork)の発見に従い、 `const float d = max / -7;` をデフォルトの `const float d = max / -8;` の代わりに、量子化プロセス中の MoE レイヤーにのみ適用しました。この INT4 ネイティブ MoE に対する全単射パッチにより、 `Q4_0` 量子化タイプは絶対誤差を 1.8% から 0% 近辺（イプシロン）まで減らせます。

ただし、他のレイヤーは BF16 のままにしておく必要があり、以下に BF16 ベースラインに対する両者の誤差プロットを示します。 `UD-Q8-K_XL` は、Q4\_0 を BF16 に変換する際の機械イプシロン差を除けば、真に「ロスレス」です。パープレキシティは `UD-Q8_K_XL` が 1.8419 ± 0.00721 で、 `UD-Q4_K_XL` は 1.8420 ± 0.00720 でした。なお、以下の誤差プロットは RMSE を bfloat16 のイプシロンで割ったものなので、誤差スケールは小さいです。

<div data-with-frame="true"><figure><img src="/files/bc2c63518348079557a3caff73c3e16bc122b6a5" alt=""><figcaption><p>次の差を確認してください： <code>Q4_K_XL</code> （青）と <code>Q8_K_XL</code> （オレンジ）。こちらはロスレスで、10GB 大きくなります。</p></figcaption></figure></div>

### :gear: 使用ガイド

**思考モードと非思考モードでは異なる設定が必要です：**

| デフォルト（思考モード）      | インスタントモード         |
| ----------------- | ----------------- |
| temperature = 1.0 | temperature = 0.6 |
| top\_p = 0.95     | top\_p = 0.95     |

* 推奨コンテキスト長 = `98,304` （最大 `262,144`)

モデルが収まる場合、B200 使用時に >40 トークン/秒が得られます。サイズと品質のバランスが良いものとして、 `UD-Q2_K_XL` （350GB）を推奨します。最良の経験則は、RAM+VRAM ≈ 量子化サイズです。そうでない場合でも動作はしますが、オフロードのため遅くなります。

#### Kimi K2.6 用チャットテンプレート

実行 `tokenizer.apply_chat_template([{"role": "user", "content": "1+1 は何ですか？"},])` の結果：

{% code overflow="wrap" %}

```
<|im_system|>system<|im_middle|>あなたは Moonshot AI によって作成された AI アシスタント、Kimi です。<|im_end|><|im_user|>user<|im_middle|>1+1 は何ですか？<|im_end|><|im_assistant|>assistant<|im_middle|><think>
```

{% endcode %}

## Kimi K2.6 実行ガイド

### 🦥 Unsloth Studio で Kimi-K2.6 を実行

Kimi K2.6 は [Unsloth Studio](/docs/jp/xin-zhe/studio.md)で実行できます。これはローカル AI 向けのオープンソース Web UI です。 **Unsloth Studio は自動的に RAM にオフロードし、マルチ GPU 構成を検出します**。Unsloth Studio を使えば、次の環境でローカルにモデルを実行できます： **MacOS、Windows**、Linux、および：

{% columns %}
{% column %}

* 検索、ダウンロード、 [GGUF を実行](/docs/jp/xin-zhe/studio.md#run-models-locally) および safetensor モデル
* [**自己修復型** ツール呼び出し](/docs/jp/xin-zhe/studio.md#execute-code--heal-tool-calling) + **Web 検索**
* [**コード実行**](/docs/jp/xin-zhe/studio.md#run-models-locally) （Python、Bash）
* [自動推論](/docs/jp/xin-zhe/studio.md#model-arena) パラメータ調整（temp、top-p など）
* llama.cpp による高速 CPU + GPU 推論
* [LLM を学習](/docs/jp/xin-zhe/studio.md#no-code-training) 70% 少ない VRAM で 2 倍高速
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/c32867f999db074387ac16732ce548485cc593de" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}
**Unsloth のインストールと起動**

インストールするには、ターミナルで次を実行してください：

MacOS、Linux、WSL：

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

Windows PowerShell：

```bash
irm https://unsloth.ai/install.ps1 | iex
```

**Unsloth を起動**

MacOS、Linux、WSL、および Windows：

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

その後、 `http://localhost:8888` をブラウザで開いてください。
{% endstep %}

{% step %}
**Kimi-K2.6 を検索してダウンロード**

Unsloth Studio は自動的に RAM にオフロードし、マルチ GPU 構成を検出します。初回起動時には、アカウント保護のためにパスワードを作成し、後で再度サインインする必要があります。

その後、 [Studio Chat](/docs/jp/xin-zhe/studio/chat.md) タブに移動して、 **Kimi-K2.6** を検索バーで検索し、希望するモデルと量子化をダウンロードしてください。モデルを実行するのに十分な計算資源があることを確認してください。

<div data-with-frame="true"><figure><img src="/files/4f76318291b3d035d42a4d1d2b9c514024f09710" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}
**Kimi-K2.6 を実行**

Unsloth Studio を使用する場合、推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細については、こちらをご覧ください： [Unsloth Studio 推論ガイド](/docs/jp/xin-zhe/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/aefe9115149da8c8069575f294893ffc6e2b9d80" alt="" width="563"><figcaption><p>ツール呼び出しで動作する Qwen3.6 の例</p></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 llama.cpp で Kimi K2.6 を実行

このガイドでは、少なくとも 350GB の RAM が必要な UD-Q2\_K\_XL 量子化を実行します。量子化タイプは自由に変更してください。GGUF： [**Kimi-K2.6-GGUF**](https://huggingface.co/unsloth/Kimi-K2.6-GGUF)

これらのチュートリアルでは、 [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp) を使用して高速なローカル推論を行います。特に CPU をお持ちの場合に適しています。

{% stepper %}
{% step %}
最新の `llama.cpp` **を取得してください** [**GitHub はこちら**](https://github.com/ggml-org/llama.cpp)。以下のビルド手順に従うこともできます。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論のみを行いたい場合です。 **Apple Mac / Metal デバイス向け**、設定 `-DGGML_CUDA=OFF` してから通常どおり続行してください。Metal サポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
もし `llama.cpp` を使って直接モデルを読み込みたい場合は、以下を実行できます：（:`Q2_K_XL`）は量子化タイプです。Hugging Face 経由でもダウンロードできます（ポイント 3）。これは `ollama run` に似ています。 `export LLAMA_CACHE="folder"` を使うと、 `llama.cpp` が特定の場所に保存するよう強制できます。モデルの最大 `262,144` コンテキスト長。

用途に応じて、以下の特定のコマンドのいずれかを使用してください：

**思考モード：**

```bash
export LLAMA_CACHE="unsloth/Kimi-K2.6-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Kimi-K2.6-GGUF:UD-Q2_K_XL \
    --temp 1.0 \
    --top-p 0.95
```

**非思考モード（インスタント）：**

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Kimi-K2.6-GGUF:UD-Q2_K_XL \
    --temp 0.6 \
    --top-p 0.95 \
    --chat-template-kwargs '{"enable_thinking":false}'
```

{% endstep %}

{% step %}
以下のコードでモデルをダウンロードしてください（インストール後 `pip install huggingface_hub hf_transfer`）。ダウンロードが止まる場合は、こちらを参照してください： [Hugging Face Hub、XETデバッグ](/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Kimi-K2.6-GGUF \
    --local-dir unsloth/Kimi-K2.6-GGUF \
    --include "*mmproj-F16*" \
    --include "*UD-Q2_K_XL*" # 完全精度には "*UD-Q8_K_XL*" を使用
```

{% endstep %}

{% step %}
その後、会話モードでモデルを実行します：

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Kimi-K2.6-GGUF/UD-Q2_K_XL/Kimi-K2.6-UD-Q2_K_XL-00001-of-0008.gguf \
    --mmproj unsloth/Kimi-K2.6-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95
```

{% endcode %}
{% endstep %}
{% endstepper %}

### 📊 ベンチマーク

表形式のベンチマークはさらに下で確認できます：

<div data-with-frame="true"><figure><img src="/files/0fc7f1e7f0d1887f093014d7cdef5eccafc339d8" alt="" width="563"><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/kimi-k2.6.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.