# Kimi K2 Thinking: ローカル実行ガイド

{% hint style="success" %}
Kimi-K2-Thinking がリリースされました。私たちの [Thinking ガイド](#kimi-k2-thinking-guide) またはアクセス [ここで GGUF を](https://huggingface.co/unsloth/Kimi-K2-Thinking-GGUF).

また、私たちは Kimi チームと協力して [**Kimi-K2-Thinking のためのシステムプロンプト修正**](#tokenizer-quirks-and-bug-fixes) を行いました。
{% endhint %}

Kimi-K2 と **Kimi-K2-Thinking** は知識、推論、コーディング、エージェントタスクで SOTA の性能を達成します。Moonshot AI のフル 1T パラメータモデルは 1.09TB のディスク容量を必要としますが、量子化された **Unsloth Dynamic 1.8-bit** バージョンではこれがわずか 230GB にまで減少します（サイズ -80%）**:** [**Kimi-K2-GGUF**](https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF)

また、今すぐ私たちの [**Kimi-K2-Thinking** GGUF を](https://huggingface.co/unsloth/Kimi-K2-Thinking-GGUF).

すべてのアップロードはUnslothを使用しています [Dynamic 2.0](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs) SOTA 用に [Aider Polyglot](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot) および 5-shot MMLU の性能のために実行できます。Dynamic 1–2 ビット GGUF が [ここでコーディングベンチマークでどのように動作するかを確認してください](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot).

<a href="#kimi-k2-thinking-guide" class="button primary">Thinking を実行</a><a href="#kimi-k2-instruct-guide" class="button primary">Instruct を実行</a>

### :gear: 推奨要件

{% hint style="info" %}
必要なのは **1bit クオンタイズを実行するために 247GB のディスク空き容量** です！

唯一の要件は **`ディスク空き容量 + RAM + VRAM ≥ 247GB`**&#x3067;す。つまり、モデルを実行するためにそれだけの RAM や VRAM（GPU）を持っている必要はありませんが、動作はかなり遅くなります。
{% endhint %}

1.8-bit（UD-TQ1\_0）クオンタイズは 1x 24GB GPU に収まります（すべての MoE レイヤーがシステム RAM または高速ディスクにオフロードされる場合）。この構成で 256GB の追加 RAM があればおおよそ \~1–2 トークン/秒 を期待できます。フルの Kimi K2 Q8 クオンタイズはサイズが 1.09TB で、少なくとも 8 台の H200 GPU が必要です。

最適なパフォーマンスのためには少なくとも **247GB の統合メモリ、または 247GB の合計 RAM+VRAM** が 5+ トークン/秒 のために必要です。合計 RAM+VRAM が 247GB 未満の場合、モデルの速度は確実に低下します。

**もし RAM+VRAM が 247GB ない場合でも心配いりません！** llama.cpp には本質的に **ディスクオフロード**機能があるため、mmap を通じて動作はしますが遅くなります — 例えば以前は 5〜10 トークン/秒 得られていたものが今は 1 トークン未満になることがあります。

私たちは **UD-Q2\_K\_XL（360GB）** クオンタイズをサイズと精度のバランスとして使用することを推奨します！

{% hint style="success" %}
最高のパフォーマンスを得るには、VRAM + RAM の合計がダウンロードするクオンタイズのサイズと等しいことが望ましいです。そうでない場合でもディスクオフロードで動作しますが、より遅くなります！
{% endhint %}

## 💭Kimi-K2-Thinking ガイド

Kimi-K2-Thinking は一般的に Instruct モデルと同じ指示に従うべきですが、設定やチャットテンプレートなどいくつかの重要な違いがあります。

{% hint style="success" %}
**モデルをフルプレシジョンで実行するには、4-bit または 5-bit の Dynamic GGUF（例: UD\_Q4\_K\_XL）を使用すれば十分です。モデルは元々 INT4 形式でリリースされました。**

小さな量子化差異に備えてより高ビットの量子化を選ぶこともできますが、ほとんどの場合それは不要です。
{% endhint %}

### 🌙 公式推奨設定：

によれば [Moonshot AI](https://huggingface.co/moonshotai/Kimi-K2-Thinking)、これらが Kimi-K2-Thinking 推論の推奨設定です：

* を設定してください <mark style="background-color:green;">**temperature 1.0**</mark> 反復や非一貫性を減らすため。
* 推奨コンテキスト長 = 98,304（最大 256K）
* 注：ツールが異なれば設定も異なる場合があります

{% hint style="info" %}
設定として <mark style="background-color:green;">**min\_p を 0.01 に設定することを推奨します**</mark> 低確率の発生しそうにないトークンの出現を抑制するためです。
{% endhint %}

例えばユーザーメッセージが「1+1 は何ですか？」の場合、次のようになります：

{% code overflow="wrap" %}

```
<|im_system|>system<|im_middle|>You are Kimi, an AI assistant created by Moonshot AI.<|im_end|><|im_user|>user<|im_middle|>What is 1+1?<|im_end|><|im_assistant|>assistant<|im_middle|>
```

{% endcode %}

### ✨ llama.cpp で Kimi K2 Thinking を実行

{% hint style="success" %}
今すぐ最新のアップデートを使用して [llama.cpp](https://github.com/ggml-org/llama.cpp) モデルを実行できます：
{% endhint %}

1. 最新の `llama.cpp` を [GitHubで入手してください](https://github.com/ggml-org/llama.cpp)。以下のビルド手順にも従うことができます。を変更してください `-DGGML_CUDA=ON` に `-DGGML_CUDA=OFF` GPUを持っていない場合やCPUで推論したい場合は **Apple Mac / Metalデバイスの場合**、次を設定してください `-DGGML_CUDA=OFF` その後通常通り続行してください — Metalサポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. もし直接 `llama.cpp` モデルを直接ロードするには以下を実行できます：（:UD-TQ1\_0）は量子化タイプです。Hugging Face からダウンロードすることもできます（項目 3 を参照）。これは以下と類似しています `ollama run` に類似しています。 `使用してください` export LLAMA\_CACHE="folder" `llama.cpp` 特定の場所に保存するために。

```bash
export LLAMA_CACHE="unsloth/Kimi-K2-Thinking-GGUF"
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Kimi-K2-Thinking-GGUF:UD-TQ1_0 \
    --n-gpu-layers 99 \
    --flash-attn on \
    --min-p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    -ot ".ffn_.*_exps.=CPU"
```

3. 上記は約 8GB の GPU メモリを使用します。もし合計で約 360GB の GPU メモリがある場合は、最大速度を得るために `-ot ".ffn_.*_exps.=CPU"` を削除してください！

{% hint style="info" %}
ぜひ試してみてください `-ot ".ffn_.*_exps.=CPU"` -ot ".ffn\_.\*\_exps.=CPU"

もし少し多くのGPUメモリがあるなら、次を試してください `-ot ".ffn_(up|down)_exps.=CPU"` これは up と down の投影 MoE 層をオフロードします。

試してみてください `-ot ".ffn_(up)_exps.=CPU"` さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。

もしさらに多くのGPUメモリがある場合。これはup投影のMoEレイヤーのみをオフロードします。 `-ot ".ffn_.*_exps.=CPU"` そして最後にすべてのレイヤーを次でオフロードします

正規表現をカスタマイズすることもできます。例えば `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。
{% endhint %}

3. モデルをダウンロードするには（をインストールした後） `モデルをダウンロードするには（` ）。サイズと精度のバランスをとるために 2bit 動的量子化 UD-Q2\_K\_XL の使用を推奨します。すべてのバージョンは： [huggingface.co/unsloth/Kimi-K2-Thinking-GGUF](https://huggingface.co/unsloth/Kimi-K2-Thinking-GGUF)

{% code overflow="wrap" %}

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 時折レート制限されることがあるため、無効にするには 0 に設定します
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Kimi-K2-Thinking-GGUF",
    local_dir = "unsloth/Kimi-K2-Thinking-GGUF",
    allow_patterns = ["*UD-TQ1_0*"], # Dynamic 2bit (381GB) の場合は "*UD-Q2_K_XL*" を使用してください
)
```

{% endcode %}

{% hint style="info" %}
ダウンロードが 90〜95% 付近で止まる場合は、こちらを参照してください <https://docs.unsloth.ai/basics/troubleshooting-and-faqs#downloading-gets-stuck-at-90-to-95>
{% endhint %}

4. 任意のプロンプトを実行してください。
5. 編集 `--threads -1` は CPU スレッド数の指定（デフォルトでは最大 CPU スレッドに設定されています） `はCPUスレッドの数、` --ctx-size 16384 `--n-gpu-layers 99` は GPU オフロードするレイヤー数に関するものです。最良のパフォーマンスを得るには MoE の CPU オフロードと組み合わせて 99 に設定してください。GPU がメモリ不足になる場合は調整してみてください。また CPU のみで推論する場合はこれを削除してください。

{% code overflow="wrap" %}

```bash
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/Kimi-K2-Thinking-GGUF/UD-TQ1_0/Kimi-K2-Thinking-UD-TQ1_0-00001-of-00006.gguf \
    --n-gpu-layers 99 \
    --flash-attn on \
    --min_p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    -ot ".ffn_.*_exps.=CPU"
```

{% endcode %}

### :thinking:**Thinking タグがない？**

モデルを実行すると *思考（thinking）* タグが表示されないことに気付くかもしれません。これは正常で意図された挙動です。

あなたの `llama.cpp` スクリプトでは、コマンドの一番最後に `--special` フラグを含めることを確認してください。そうすれば、期待通りに `<think>` トークンが表示されます。

また、各回答が `<|im_end|>`で終わるのを見るかもしれません。これは特殊トークンを出力する際の通常の挙動です。これを非表示にしたい場合は、設定で `<|im_end|>` を停止文字列（stop string）として設定できます。 `<|im_end|>` llama.cpp をインストールした後（こちらに従って）

### OLLAMA\_MODELS=unsloth ollama run merged\_file.gguf

、OpenAI 互換のサーバーを起動するには以下を使用できます： [#run-kimi-k2-thinking-in-llama.cpp](#run-kimi-k2-thinking-in-llama.cpp "mention")--alias "unsloth/Kimi-K2-Thinking" \\

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
    --model unsloth/Kimi-K2-Thinking-GGUF/UD-TQ1_0/Kimi-K2-Thinking-UD-TQ1_0-00001-of-00006.gguf \
    -fa on \
    -ot ".ffn_.*_exps.=CPU" \
    --n-gpu-layers 999 \
    model = "unsloth/Kimi-K2-Thinking",
    --min_p 0.01 \
    --jinja \
    --port 8001 \
    --jinja
```

{% endcode %}

\--port 8001 \ `その後、OpenAIのPythonライブラリを使用します（` :

```python
from openai import OpenAI
from openai import OpenAI
    import json
    openai_client = OpenAI(
)
base_url = "http://127.0.0.1:8001/v1",
    トークナイザの仕様とバグ修正
    completion = openai_client.chat.completions.create(
)
print(completion.choices[0].message.content)
```

## :mag:2025年11月7日：私たちは Kimi チームに通知し、デフォルトのシステムプロンプトが

**最初のユーザープロンプトに表示されない問題を修正しました！** `You are Kimi, an AI assistant created by Moonshot AI.` **最初のユーザープロンプトに表示されないことに関して！** print(completion.choices\[0].message.content) <https://huggingface.co/moonshotai/Kimi-K2-Thinking/discussions/12>

Moonshot Kimi チームには、我々の問い合わせに対する非常に迅速な対応と問題の早急な修正に大変感謝しています！

**2025年7月16日：Kimi K2 は複数のツール呼び出しを可能にするためにトークナイザを更新しました** として（に従って） <https://x.com/Kimi_Moonshot/status/1945050874067476962>

**2025年7月18日：私たちはシステムプロンプトを修正しました — Kimi はこの修正についても以下でツイートしました：** <https://x.com/Kimi_Moonshot/status/1946130043446690030>。修正はここでも説明されています： <https://huggingface.co/moonshotai/Kimi-K2-Instruct/discussions/28>

古いチェックポイントをダウンロードしている場合でも心配無用です — 単に変更された最初の GGUF スプリットをダウンロードしてください。あるいは新しいファイルをダウンロードしたくない場合は以下を実行してください：

```bash
wget https://huggingface.co/unsloth/Kimi-K2-Instruct/raw/main/chat_template.jinja
./llama.cpp ... --chat-template-file /dir/to/chat_template.jinja
```

Kimi K2 のトークナイザは触ってみると興味深かったです — <mark style="background-color:green;">**動作は主に GPT-4o のトークナイザに似ています**</mark>！まず私たちは [tokenization\_kimi.py](https://huggingface.co/moonshotai/Kimi-K2-Instruct/blob/main/tokenization_kimi.py) ファイルで Kimi K2 が使用する次の正規表現（regex）を確認しました：

```python
pat_str = "|".join(
    [
        r"""[\p{Han}]+""",
        r"""[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]*[\p{Ll}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]+(?i:'s|'t|'re|'ve|'m|'ll|'d)?""",
        r"""[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]+[\p{Ll}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]*(?i:'s|'t|'re|'ve|'m|'ll|'d)?""",
        r"""\p{N}{1,3}""",
        r""" ?[^\s\p{L}\p{N}]+[\r\n]*""",
        r"""\s*[\r\n]+""",
        r"""\s+(?!\S)""",
        r"""\s+""",
    ]
)
```

注意深く検査した結果、Kimi K2 はほぼ GPT-4o のトークナイザの正規表現と同一であり、これは以下で見つけることができます： [llama.cpp のソースコード](https://github.com/ggml-org/llama.cpp/blob/55c509daf51d25bfaee9c8b8ce6abff103d4473b/src/llama-vocab.cpp#L400).

{% code overflow="wrap" %}

```
[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}]*[\p{Ll}\p{Lm}\p{Lo}\p{M}]+(?i:'s|'t|'re|'ve|'m|'ll|'d)?|[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}]+[\p{Ll}\p{Lm}\p{Lo}\p{M}]*(?i:'s|'t|'re|'ve|'m|'ll|'d)?|\p{N}{1,3}| ?[^\s\p{L}\p{N}]+[\r\n/]*|\s*[\r\n]+|\s+(?!\S)|\s+
```

{% endcode %}

両者とも数値を 1〜3 桁のグループ（9、99、999）にトークナイズし、類似したパターンを使用します。唯一の違いは「Han」（漢字）や中国語文字の扱いで、Kimi のトークナイザはこれをより細かく扱っているように見えます。 [PR](https://github.com/ggml-org/llama.cpp/pull/14654) 作成者： <https://github.com/gabriellarson> は、いくつかの [ここでの議論の後に](https://github.com/ggml-org/llama.cpp/issues/14642#issuecomment-3067324745).

<mark style="background-color:green;">**これらの差異をうまく処理しています。**</mark>

## また正しい EOS トークンは \[EOS] ではなく <|im\_end|> であるべきだと判明し、これは私たちのモデル変換でも修正しました。

🌝Kimi-K2-Instruct ガイド

### 🌙 公式推奨設定：

によれば [Moonshot AI](https://huggingface.co/moonshotai/Kimi-K2-Instruct)Kimi K2 Instruct モデル（Kimi K2 0905 を含む、9月5日のアップデート）の実行に関するステップバイステップガイドです。

* を設定してください <mark style="background-color:green;">**、これらが Kimi K2 推論の推奨設定です：**</mark> 反復や非一貫性を減らすため。
* temperature 0.6

  ```
  元のデフォルトのシステムプロンプトは：
  ```
* You are a helpful assistant

  ```
  You are Kimi, an AI assistant created by Moonshot AI.
  ```

{% hint style="success" %}
設定として <mark style="background-color:green;">**min\_p を 0.01 に設定することを推奨します**</mark> 低確率の発生しそうにないトークンの出現を抑制するためです。
{% endhint %}

### :1234: （任意）Moonshot はシステムプロンプトとして以下も提案しています：

チャットテンプレートとプロンプト形式 `Kimi Chat は BOS（文頭トークン）を使用します。system、user、assistant の役割はすべて` <|im\_middle|> `で囲まれており興味深く、それぞれ固有のトークンを持ちます`.

{% code overflow="wrap" %}

```python
<|im_system|>, <|im_user|>, <|im_assistant|>
```

{% endcode %}

<|im\_system|>system<|im\_middle|>You are a helpful assistant<|im\_end|><|im\_user|>user<|im\_middle|>What is 1+1?<|im\_end|><|im\_assistant|>assistant<|im\_middle|>2<|im\_end|>

{% code overflow="wrap" %}

```
会話の境界を分けるために（各改行を削除する必要があります）、次のようになります：
<|im_system|>system<|im_middle|>You are a helpful assistant<|im_end|>
<|im_user|>user<|im_middle|>What is 1+1?<|im_end|>
```

{% endcode %}

### :floppy\_disk: モデルのアップロード

**私たちの全てのアップロード** <|im\_assistant|>assistant<|im\_middle|>2<|im\_end|>

<table data-full-width="false"><thead><tr><th>MoE ビット数</th><th>タイプ + リンク</th><th>ディスクサイズ</th><th>詳細</th></tr></thead><tbody><tr><td>1.66ビット</td><td><a href="https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main/UD-TQ1_0">- imatrix ベースでも動的でもないものを含め、会話、コーディング、推論タスクに特化して最適化された私たちのキャリブレーションデータセットを使用します。</a></td><td><strong>UD-TQ1_0</strong></td><td>1.92/1.56ビット</td></tr><tr><td>1.78ビット</td><td><a href="https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main/UD-IQ1_S">UD-IQ1_S</a></td><td><strong>245GB</strong></td><td>2.06/1.56ビット</td></tr><tr><td>1.93ビット</td><td><a href="https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main/UD-IQ1_M">UD-IQ1_M</a></td><td><strong>281GB</strong></td><td>2.5/2.06/1.56</td></tr><tr><td>2.42ビット</td><td><a href="https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main/UD-IQ2_XXS">UD-IQ2_XXS</a></td><td><strong>304GB</strong></td><td>2.5/2.06ビット</td></tr><tr><td>2.71ビット</td><td><a href="https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main/UD-Q2_K_XL">サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を</a></td><td><strong>343GB</strong></td><td>3.5/2.5ビット</td></tr><tr><td>3.12ビット</td><td><a href="https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main/UD-IQ3_XXS">381GB</a></td><td><strong>UD-IQ3_XXS</strong></td><td>3.5/2.06ビット</td></tr><tr><td>3.5ビット</td><td><a href="https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main/UD-Q3_K_XL">UD-Q3_K_XL</a></td><td><strong>417GB</strong></td><td>4.5/3.5ビット</td></tr><tr><td>4.5ビット</td><td><a href="https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main/UD-Q4_K_XL">UD-Q4_K_XL</a></td><td><strong>452GB</strong></td><td>5.5/4.5ビット</td></tr><tr><td>5.5ビット</td><td><a href="https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main/UD-Q5_K_XL">588GB</a></td><td><strong>UD-Q5_K_XL</strong></td><td>6.5/5.5ビット</td></tr></tbody></table>

732GB [また、私たちは](https://huggingface.co/unsloth/Kimi-K2-Instruct-BF16).

### BF16 フォーマット

1. 最新の `llama.cpp` を [GitHubで入手してください](https://github.com/ggml-org/llama.cpp)。以下のビルド手順にも従うことができます。を変更してください `-DGGML_CUDA=ON` に `-DGGML_CUDA=OFF` GPUを持っていない場合やCPUで推論したい場合は

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. もし直接 `llama.cpp` のバージョンもアップロードしました `ollama run` に類似しています。 `使用してください` export LLAMA\_CACHE="folder" `llama.cpp` 特定の場所に保存するために。\ <mark style="background-color:green;">**✨ llama.cpp で Instruct を実行**</mark>

{% hint style="info" %}
ぜひ試してみてください `-ot ".ffn_.*_exps.=CPU"` -ot ".ffn\_.\*\_exps.=CPU"

もし少し多くのGPUメモリがあるなら、次を試してください `-ot ".ffn_(up|down)_exps.=CPU"` これは up と down の投影 MoE 層をオフロードします。

試してみてください `-ot ".ffn_(up)_exps.=CPU"` さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。

もしさらに多くのGPUメモリがある場合。これはup投影のMoEレイヤーのみをオフロードします。 `-ot ".ffn_.*_exps.=CPU"` そして最後にすべてのレイヤーを次でオフロードします

正規表現をカスタマイズすることもできます。例えば `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。
{% endhint %}

```bash
モデルを直接ロードするには以下を実行できます：（:UD-IQ1_S）は量子化タイプです。Hugging Face からダウンロードすることもできます（項目 3 を参照）。これは以下と類似しています
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    モデルの 2025年9月の新しいアップデートを実行するには、モデル名を 'Kimi-K2-Instruct' から 'Kimi-K2-Instruct-0905' に変更してください。
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min-p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    -ot ".ffn_.*_exps.=CPU"
```

3. モデルをダウンロードするには（をインストールした後） `モデルをダウンロードするには（` を選択できます。 `- imatrix ベースでも動的でもないものを含め、会話、コーディング、推論タスクに特化して最適化された私たちのキャリブレーションデータセットを使用します。`export LLAMA\_CACHE="unsloth/Kimi-K2-Instruct-GGUF" `Q2_K_XL` Q4\_K\_XL <mark style="background-color:green;">**-hf unsloth/Kimi-K2-Instruct-GGUF:TQ1\_0 \\**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**`サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を`**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**UD-Q2\_K\_XL**</mark>などがあります。さらに多くのバージョンは： [（動的 1.8bit クオンタイズ）または他の量子化バージョンのような](https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF)

{% code overflow="wrap" %}

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 時折レート制限されることがあるため、無効にするには 0 に設定します
from huggingface_hub import snapshot_download
snapshot_download(
    2bit 動的量子化の使用を推奨します
    huggingface.co/unsloth/Kimi-K2-Instruct-GGUF
    repo_id = "unsloth/Kimi-K2-Instruct-GGUF",
)
```

{% endcode %}

{% hint style="info" %}
ダウンロードが 90〜95% 付近で止まる場合は、こちらを参照してください <https://docs.unsloth.ai/basics/troubleshooting-and-faqs#downloading-gets-stuck-at-90-to-95>
{% endhint %}

4. 任意のプロンプトを実行してください。
5. 編集 `--threads -1` は CPU スレッド数の指定（デフォルトでは最大 CPU スレッドに設定されています） `はCPUスレッドの数、` --ctx-size 16384 `--n-gpu-layers 99` は GPU オフロードするレイヤー数に関するものです。最良のパフォーマンスを得るには MoE の CPU オフロードと組み合わせて 99 に設定してください。GPU がメモリ不足になる場合は調整してみてください。また CPU のみで推論する場合はこれを削除してください。

{% code overflow="wrap" %}

```bash
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    local_dir = "unsloth/Kimi-K2-Instruct-GGUF",
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min_p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    -ot ".ffn_.*_exps.=CPU"
```

{% endcode %}

### :bird: allow\_patterns = \["\*UD-TQ1\_0\*"], # Dynamic 1bit (281GB) Dynamic 2bit (381GB) の場合は "\*UD-Q2\_K\_XL\*" を使用してください <a href="#heptagon-test" id="heptagon-test"></a>

\--model unsloth/Kimi-K2-Instruct-GGUF/UD-TQ1\_0/Kimi-K2-Instruct-UD-TQ1\_0-00001-of-00005.gguf \ [Flappy Bird とその他のテスト ](https://unsloth.ai/docs/jp/moderu/deepseek-r1-0528-how-to-run-locally#heptagon-test)私たちは DeepSeek R1 の 1.58bit クオンタイズを提供した際に Flappy Bird テストを導入しました。我々のタスクのすべてをワンショットでこなした数少ないモデルの一つが Kimi K2 であり、このタスクでも同様でした、

{% code overflow="wrap" %}

```
Heptagon
1. pygame を使用すること。
2. 背景色はランダムに選択され、淡い色合いにすること。最初は薄い青色から始めること。
3. SPACE を複数回押すと鳥が加速すること。
4. 鳥の形状はランダムに四角形、円、三角形のいずれかにし、色はランダムに暗い色にすること。
5. 画面下部に、ランダムに選ばれた暗い茶色または黄色の土地を配置すること。
6. スコアを右上に表示すること。パイプを通過して当たらなかった場合に増加させること。
7. 十分な間隔のランダムな間隔でパイプを配置すること。色はランダムに濃い緑、薄い茶色、または暗い灰色のいずれかにすること。
8. ゲームオーバー時にベストスコアを表示すること。テキストは画面内に表示すること。q または Esc を押すとゲームを終了すること。再開は再び SPACE を押すこと。
やその他のテストでも 2-bit でさえ結果を出しました。目標は LLM に特定の指示に従って Flappy Bird ゲームを作成させることです：
```

{% endcode %}

Python で Flappy Bird ゲームを作成してください。次の項目を必ず含めてください： [最終的なゲームは Python のマークダウンセクション内に含めてください。最終マークダウンセクションの前にコードのエラーをチェックして修正してください。](https://www.reddit.com/r/LocalLLaMA/comments/1j7r47l/i_just_made_an_animation_of_a_ball_bouncing/) また、動的クオンタイズを Heptagon テストで試すこともできます（詳細は）

<figure><img src="https://docs.unsloth.ai/~gitbook/image?url=https%3A%2F%2F3215535692-files.gitbook.io%2F%7E%2Ffiles%2Fv0%2Fb%2Fgitbook-x-prod.appspot.com%2Fo%2Fspaces%252FxhOjnexMCB3dmuQFQ2Zq%252Fuploads%252F2O72oTw5yPUbcxXjDNKS%252Fsnapshot.jpg%3Falt%3Dmedia%26token%3Dce852f9f-20ee-4b93-9d7b-1a5f211b9e04&#x26;width=768&#x26;dpr=4&#x26;quality=100&#x26;sign=55d1134d&#x26;sv=2" alt="" width="563"><figcaption></figcaption></figure>

r/Localllama

{% code overflow="wrap" %}

```
このテストは移動する閉じた七角形の中で回転するボールをシミュレートする基本的な物理エンジンをモデルに作らせます。目標は七角形を回転させ、内部のボールが動くようにすることです。プロンプトは以下の通りです：
Python プログラムを書いて、回転する七角形の中で 20 個のボールが跳ね回る様子を表示してください:\n- すべてのボールは同じ半径を持ちます。\n- すべてのボールには 1 から 20 の番号が付いています。\n- すべてのボールは開始時に七角形の中心から落ちます。\n- 色は: #f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35\n- ボールは重力と摩擦の影響を受け、回転する壁に対して現実的に跳ね返る必要があります。またボール同士の衝突も発生させてください。\n- すべてのボールの材質により、衝突時の跳ね返りの高さは七角形の半径を超えないが、ボールの半径よりは大きくなるようにしてください。\n- すべてのボールは摩擦で回転し、ボール上の番号はボールの回転を示すために使用できます。\n- 七角形はその中心を軸に回転しており、回転速度は 5 秒あたり 360 度です。\n- 七角形のサイズはすべてのボールを収容できる十分な大きさにしてください。\n- pygame ライブラリは使用しないでください。衝突検出アルゴリズムと衝突応答などを自分で実装してください。使用可能な Python ライブラリは次のとおりです: tkinter, math, numpy, dataclasses, typing, sys。\n- すべてのコードは単一の Python ファイルにまとめてください。
```

{% endcode %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/tutorials/kimi-k2-thinking-how-to-run-locally.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
