🌙Kimi K2 Thinking: ローカルで実行するガイド

Kimi-K2-Thinking と Kimi-K2 を自分のローカルデバイスで実行するためのガイド！

Kimi-K2-Thinking がリリースされました。私たちの Thinking ガイドまたはアクセスここで GGUF を.

また、私たちは Kimi チームと協力して Kimi-K2-Thinking のためのシステムプロンプト修正 を行いました。

Kimi-K2 と Kimi-K2-Thinking は知識、推論、コーディング、エージェントタスクで SOTA の性能を達成します。Moonshot AI のフル 1T パラメータモデルは 1.09TB のディスク容量を必要としますが、量子化された Unsloth Dynamic 1.8-bit バージョンではこれがわずか 230GB にまで減少します（サイズ -80%）: Kimi-K2-GGUF

また、今すぐ私たちの Kimi-K2-Thinking GGUF を.

すべてのアップロードはUnslothを使用しています Dynamic 2.0 SOTA 用に Aider Polyglot および 5-shot MMLU の性能のために実行できます。Dynamic 1–2 ビット GGUF がここでコーディングベンチマークでどのように動作するかを確認してください.

Thinking を実行 Instruct を実行

⚙️ 推奨要件

必要なのは 1bit クオンタイズを実行するために 247GB のディスク空き容量 です！

唯一の要件は ディスク空き容量 + RAM + VRAM ≥ 247GBです。つまり、モデルを実行するためにそれだけの RAM や VRAM（GPU）を持っている必要はありませんが、動作はかなり遅くなります。

1.8-bit（UD-TQ1_0）クオンタイズは 1x 24GB GPU に収まります（すべての MoE レイヤーがシステム RAM または高速ディスクにオフロードされる場合）。この構成で 256GB の追加 RAM があればおおよそ ~1–2 トークン/秒を期待できます。フルの Kimi K2 Q8 クオンタイズはサイズが 1.09TB で、少なくとも 8 台の H200 GPU が必要です。

最適なパフォーマンスのためには少なくとも 247GB の統合メモリ、または 247GB の合計 RAM+VRAM が 5+ トークン/秒のために必要です。合計 RAM+VRAM が 247GB 未満の場合、モデルの速度は確実に低下します。

もし RAM+VRAM が 247GB ない場合でも心配いりません！ llama.cpp には本質的に ディスクオフロード機能があるため、mmap を通じて動作はしますが遅くなります — 例えば以前は 5〜10 トークン/秒得られていたものが今は 1 トークン未満になることがあります。

私たちは UD-Q2_K_XL（360GB） クオンタイズをサイズと精度のバランスとして使用することを推奨します！

最高のパフォーマンスを得るには、VRAM + RAM の合計がダウンロードするクオンタイズのサイズと等しいことが望ましいです。そうでない場合でもディスクオフロードで動作しますが、より遅くなります！

💭Kimi-K2-Thinking ガイド

Kimi-K2-Thinking は一般的に Instruct モデルと同じ指示に従うべきですが、設定やチャットテンプレートなどいくつかの重要な違いがあります。

モデルをフルプレシジョンで実行するには、4-bit または 5-bit の Dynamic GGUF（例: UD_Q4_K_XL）を使用すれば十分です。モデルは元々 INT4 形式でリリースされました。

小さな量子化差異に備えてより高ビットの量子化を選ぶこともできますが、ほとんどの場合それは不要です。

🌙 公式推奨設定：

によれば Moonshot AI、これらが Kimi-K2-Thinking 推論の推奨設定です：

を設定してください temperature 1.0 反復や非一貫性を減らすため。
推奨コンテキスト長 = 98,304（最大 256K）
注：ツールが異なれば設定も異なる場合があります

設定として min_p を 0.01 に設定することを推奨します 低確率の発生しそうにないトークンの出現を抑制するためです。

例えばユーザーメッセージが「1+1 は何ですか？」の場合、次のようになります：

<|im_system|>system<|im_middle|>You are Kimi, an AI assistant created by Moonshot AI.<|im_end|><|im_user|>user<|im_middle|>What is 1+1?<|im_end|><|im_assistant|>assistant<|im_middle|>

✨ llama.cpp で Kimi K2 Thinking を実行

今すぐ最新のアップデートを使用して llama.cpp モデルを実行できます：

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp

もし直接 llama.cpp モデルを直接ロードするには以下を実行できます：（:UD-TQ1_0）は量子化タイプです。Hugging Face からダウンロードすることもできます（項目 3 を参照）。これは以下と類似しています ollama run に類似しています。 使用してください export LLAMA_CACHE="folder" llama.cpp 特定の場所に保存するために。

export LLAMA_CACHE="unsloth/Kimi-K2-Thinking-GGUF"
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Kimi-K2-Thinking-GGUF:UD-TQ1_0 \
    --n-gpu-layers 99 \
    --flash-attn on \
    --min-p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    -ot ".ffn_.*_exps.=CPU"

上記は約 8GB の GPU メモリを使用します。もし合計で約 360GB の GPU メモリがある場合は、最大速度を得るために -ot ".ffn_.*_exps.=CPU" を削除してください！

ぜひ試してみてください -ot ".ffn_.*_exps.=CPU" -ot ".ffn_.*_exps.=CPU"

もし少し多くのGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これは up と down の投影 MoE 層をオフロードします。

試してみてください -ot ".ffn_(up)_exps.=CPU" さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。

もしさらに多くのGPUメモリがある場合。これはup投影のMoEレイヤーのみをオフロードします。 -ot ".ffn_.*_exps.=CPU" そして最後にすべてのレイヤーを次でオフロードします

正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ ）。サイズと精度のバランスをとるために 2bit 動的量子化 UD-Q2_K_XL の使用を推奨します。すべてのバージョンは： huggingface.co/unsloth/Kimi-K2-Thinking-GGUF

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 時折レート制限されることがあるため、無効にするには 0 に設定します
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Kimi-K2-Thinking-GGUF",
    local_dir = "unsloth/Kimi-K2-Thinking-GGUF",
    allow_patterns = ["*UD-TQ1_0*"], # Dynamic 2bit (381GB) の場合は "*UD-Q2_K_XL*" を使用してください
)

ダウンロードが 90〜95% 付近で止まる場合は、こちらを参照してください https://docs.unsloth.ai/basics/troubleshooting-and-faqs#downloading-gets-stuck-at-90-to-95

任意のプロンプトを実行してください。
編集 --threads -1 は CPU スレッド数の指定（デフォルトでは最大 CPU スレッドに設定されています） はCPUスレッドの数、 --ctx-size 16384 --n-gpu-layers 99 は GPU オフロードするレイヤー数に関するものです。最良のパフォーマンスを得るには MoE の CPU オフロードと組み合わせて 99 に設定してください。GPU がメモリ不足になる場合は調整してみてください。また CPU のみで推論する場合はこれを削除してください。

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/Kimi-K2-Thinking-GGUF/UD-TQ1_0/Kimi-K2-Thinking-UD-TQ1_0-00001-of-00006.gguf \
    --n-gpu-layers 99 \
    --flash-attn on \
    --min_p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    -ot ".ffn_.*_exps.=CPU"

🤔Thinking タグがない？

モデルを実行すると 思考（thinking） タグが表示されないことに気付くかもしれません。これは正常で意図された挙動です。

あなたの llama.cpp スクリプトでは、コマンドの一番最後に --special フラグを含めることを確認してください。そうすれば、期待通りに <think> トークンが表示されます。

OLLAMA_MODELS=unsloth ollama run merged_file.gguf

、OpenAI 互換のサーバーを起動するには以下を使用できます： Kimi K2 Thinking--alias "unsloth/Kimi-K2-Thinking" \

./llama.cpp/llama-server \
    --model unsloth/Kimi-K2-Thinking-GGUF/UD-TQ1_0/Kimi-K2-Thinking-UD-TQ1_0-00001-of-00006.gguf \
    -fa on \
    -ot ".ffn_.*_exps.=CPU" \
    --n-gpu-layers 999 \
    model = "unsloth/Kimi-K2-Thinking",
    --min_p 0.01 \
    --jinja \
    --port 8001 \
    --jinja

--port 8001 \ その後、OpenAIのPythonライブラリを使用します（ :

from openai import OpenAI
from openai import OpenAI
    import json
    openai_client = OpenAI(
)
base_url = "http://127.0.0.1:8001/v1",
    トークナイザの仕様とバグ修正
    completion = openai_client.chat.completions.create(
)
print(completion.choices[0].message.content)

🔍2025年11月7日：私たちは Kimi チームに通知し、デフォルトのシステムプロンプトが

最初のユーザープロンプトに表示されない問題を修正しました！ You are Kimi, an AI assistant created by Moonshot AI. 最初のユーザープロンプトに表示されないことに関して！ print(completion.choices[0].message.content) https://huggingface.co/moonshotai/Kimi-K2-Thinking/discussions/12

Moonshot Kimi チームには、我々の問い合わせに対する非常に迅速な対応と問題の早急な修正に大変感謝しています！

2025年7月16日：Kimi K2 は複数のツール呼び出しを可能にするためにトークナイザを更新しました として（に従って） https://x.com/Kimi_Moonshot/status/1945050874067476962

2025年7月18日：私たちはシステムプロンプトを修正しました — Kimi はこの修正についても以下でツイートしました： https://x.com/Kimi_Moonshot/status/1946130043446690030。修正はここでも説明されています： https://huggingface.co/moonshotai/Kimi-K2-Instruct/discussions/28

古いチェックポイントをダウンロードしている場合でも心配無用です — 単に変更された最初の GGUF スプリットをダウンロードしてください。あるいは新しいファイルをダウンロードしたくない場合は以下を実行してください：

wget https://huggingface.co/unsloth/Kimi-K2-Instruct/raw/main/chat_template.jinja
./llama.cpp ... --chat-template-file /dir/to/chat_template.jinja

Kimi K2 のトークナイザは触ってみると興味深かったです — 動作は主に GPT-4o のトークナイザに似ています！まず私たちは tokenization_kimi.py ファイルで Kimi K2 が使用する次の正規表現（regex）を確認しました：

pat_str = "|".join(
    [
        r"""[\p{Han}]+""",
        r"""[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]*[\p{Ll}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]+(?i:'s|'t|'re|'ve|'m|'ll|'d)?""",
        r"""[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]+[\p{Ll}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]*(?i:'s|'t|'re|'ve|'m|'ll|'d)?""",
        r"""\p{N}{1,3}""",
        r""" ?[^\s\p{L}\p{N}]+[\r\n]*""",
        r"""\s*[\r\n]+""",
        r"""\s+(?!\S)""",
        r"""\s+""",
    ]
)

注意深く検査した結果、Kimi K2 はほぼ GPT-4o のトークナイザの正規表現と同一であり、これは以下で見つけることができます： llama.cpp のソースコード.

[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}]*[\p{Ll}\p{Lm}\p{Lo}\p{M}]+(?i:'s|'t|'re|'ve|'m|'ll|'d)?|[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}]+[\p{Ll}\p{Lm}\p{Lo}\p{M}]*(?i:'s|'t|'re|'ve|'m|'ll|'d)?|\p{N}{1,3}| ?[^\s\p{L}\p{N}]+[\r\n/]*|\s*[\r\n]+|\s+(?!\S)|\s+

両者とも数値を 1〜3 桁のグループ（9、99、999）にトークナイズし、類似したパターンを使用します。唯一の違いは「Han」（漢字）や中国語文字の扱いで、Kimi のトークナイザはこれをより細かく扱っているように見えます。 PR 作成者： https://github.com/gabriellarson は、いくつかのここでの議論の後に.

これらの差異をうまく処理しています。

また正しい EOS トークンは [EOS] ではなく <|im_end|> であるべきだと判明し、これは私たちのモデル変換でも修正しました。

🌝Kimi-K2-Instruct ガイド

🌙 公式推奨設定：

によれば Moonshot AIKimi K2 Instruct モデル（Kimi K2 0905 を含む、9月5日のアップデート）の実行に関するステップバイステップガイドです。

を設定してください 、これらが Kimi K2 推論の推奨設定です： 反復や非一貫性を減らすため。

temperature 0.6

元のデフォルトのシステムプロンプトは：

You are a helpful assistant

You are Kimi, an AI assistant created by Moonshot AI.

設定として min_p を 0.01 に設定することを推奨します 低確率の発生しそうにないトークンの出現を抑制するためです。

🔢 （任意）Moonshot はシステムプロンプトとして以下も提案しています：

チャットテンプレートとプロンプト形式 Kimi Chat は BOS（文頭トークン）を使用します。system、user、assistant の役割はすべて <|im_middle|> で囲まれており興味深く、それぞれ固有のトークンを持ちます.

<|im_system|>, <|im_user|>, <|im_assistant|>

会話の境界を分けるために（各改行を削除する必要があります）、次のようになります：
<|im_system|>system<|im_middle|>You are a helpful assistant<|im_end|>
<|im_user|>user<|im_middle|>What is 1+1?<|im_end|>

💾 モデルのアップロード

MoE ビット数

タイプ + リンク

ディスクサイズ

詳細

1.66ビット

- imatrix ベースでも動的でもないものを含め、会話、コーディング、推論タスクに特化して最適化された私たちのキャリブレーションデータセットを使用します。

UD-TQ1_0

1.92/1.56ビット

1.78ビット

UD-IQ1_S

245GB

2.06/1.56ビット

1.93ビット

UD-IQ1_M

281GB

2.5/2.06/1.56

2.42ビット

UD-IQ2_XXS

304GB

2.5/2.06ビット

2.71ビット

サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を

343GB

3.5/2.5ビット

3.12ビット

381GB

UD-IQ3_XXS

3.5/2.06ビット

3.5ビット

UD-Q3_K_XL

417GB

4.5/3.5ビット

4.5ビット

UD-Q4_K_XL

452GB

5.5/4.5ビット

5.5ビット

588GB

UD-Q5_K_XL

6.5/5.5ビット

732GB また、私たちは.

BF16 フォーマット

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp

もし直接 llama.cpp のバージョンもアップロードしました ollama run に類似しています。 使用してください export LLAMA_CACHE="folder" llama.cpp 特定の場所に保存するために。 ✨ llama.cpp で Instruct を実行

ぜひ試してみてください -ot ".ffn_.*_exps.=CPU" -ot ".ffn_.*_exps.=CPU"

もし少し多くのGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これは up と down の投影 MoE 層をオフロードします。

試してみてください -ot ".ffn_(up)_exps.=CPU" さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。

モデルを直接ロードするには以下を実行できます：（:UD-IQ1_S）は量子化タイプです。Hugging Face からダウンロードすることもできます（項目 3 を参照）。これは以下と類似しています
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    モデルの 2025年9月の新しいアップデートを実行するには、モデル名を 'Kimi-K2-Instruct' から 'Kimi-K2-Instruct-0905' に変更してください。
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min-p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    -ot ".ffn_.*_exps.=CPU"

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ を選択できます。 - imatrix ベースでも動的でもないものを含め、会話、コーディング、推論タスクに特化して最適化された私たちのキャリブレーションデータセットを使用します。export LLAMA_CACHE="unsloth/Kimi-K2-Instruct-GGUF" Q2_K_XL Q4_K_XL -hf unsloth/Kimi-K2-Instruct-GGUF:TQ1_0 \ サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を UD-Q2_K_XLなどがあります。さらに多くのバージョンは：（動的 1.8bit クオンタイズ）または他の量子化バージョンのような

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 時折レート制限されることがあるため、無効にするには 0 に設定します
from huggingface_hub import snapshot_download
snapshot_download(
    2bit 動的量子化の使用を推奨します
    huggingface.co/unsloth/Kimi-K2-Instruct-GGUF
    repo_id = "unsloth/Kimi-K2-Instruct-GGUF",
)

ダウンロードが 90〜95% 付近で止まる場合は、こちらを参照してください https://docs.unsloth.ai/basics/troubleshooting-and-faqs#downloading-gets-stuck-at-90-to-95

任意のプロンプトを実行してください。
編集 --threads -1 は CPU スレッド数の指定（デフォルトでは最大 CPU スレッドに設定されています） はCPUスレッドの数、 --ctx-size 16384 --n-gpu-layers 99 は GPU オフロードするレイヤー数に関するものです。最良のパフォーマンスを得るには MoE の CPU オフロードと組み合わせて 99 に設定してください。GPU がメモリ不足になる場合は調整してみてください。また CPU のみで推論する場合はこれを削除してください。

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    local_dir = "unsloth/Kimi-K2-Instruct-GGUF",
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min_p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    -ot ".ffn_.*_exps.=CPU"

🐦 allow_patterns = ["UD-TQ1_0"], # Dynamic 1bit (281GB) Dynamic 2bit (381GB) の場合は "UD-Q2_K_XL" を使用してください

--model unsloth/Kimi-K2-Instruct-GGUF/UD-TQ1_0/Kimi-K2-Instruct-UD-TQ1_0-00001-of-00005.gguf \ Flappy Bird とその他のテスト私たちは DeepSeek R1 の 1.58bit クオンタイズを提供した際に Flappy Bird テストを導入しました。我々のタスクのすべてをワンショットでこなした数少ないモデルの一つが Kimi K2 であり、このタスクでも同様でした、

Heptagon
1. pygame を使用すること。
2. 背景色はランダムに選択され、淡い色合いにすること。最初は薄い青色から始めること。
3. SPACE を複数回押すと鳥が加速すること。
4. 鳥の形状はランダムに四角形、円、三角形のいずれかにし、色はランダムに暗い色にすること。
5. 画面下部に、ランダムに選ばれた暗い茶色または黄色の土地を配置すること。
6. スコアを右上に表示すること。パイプを通過して当たらなかった場合に増加させること。
7. 十分な間隔のランダムな間隔でパイプを配置すること。色はランダムに濃い緑、薄い茶色、または暗い灰色のいずれかにすること。
8. ゲームオーバー時にベストスコアを表示すること。テキストは画面内に表示すること。q または Esc を押すとゲームを終了すること。再開は再び SPACE を押すこと。
やその他のテストでも 2-bit でさえ結果を出しました。目標は LLM に特定の指示に従って Flappy Bird ゲームを作成させることです：

Python で Flappy Bird ゲームを作成してください。次の項目を必ず含めてください：最終的なゲームは Python のマークダウンセクション内に含めてください。最終マークダウンセクションの前にコードのエラーをチェックして修正してください。また、動的クオンタイズを Heptagon テストで試すこともできます（詳細は）

r/Localllama

このテストは移動する閉じた七角形の中で回転するボールをシミュレートする基本的な物理エンジンをモデルに作らせます。目標は七角形を回転させ、内部のボールが動くようにすることです。プロンプトは以下の通りです：
Python プログラムを書いて、回転する七角形の中で 20 個のボールが跳ね回る様子を表示してください:\n- すべてのボールは同じ半径を持ちます。\n- すべてのボールには 1 から 20 の番号が付いています。\n- すべてのボールは開始時に七角形の中心から落ちます。\n- 色は: #f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35\n- ボールは重力と摩擦の影響を受け、回転する壁に対して現実的に跳ね返る必要があります。またボール同士の衝突も発生させてください。\n- すべてのボールの材質により、衝突時の跳ね返りの高さは七角形の半径を超えないが、ボールの半径よりは大きくなるようにしてください。\n- すべてのボールは摩擦で回転し、ボール上の番号はボールの回転を示すために使用できます。\n- 七角形はその中心を軸に回転しており、回転速度は 5 秒あたり 360 度です。\n- 七角形のサイズはすべてのボールを収容できる十分な大きさにしてください。\n- pygame ライブラリは使用しないでください。衝突検出アルゴリズムと衝突応答などを自分で実装してください。使用可能な Python ライブラリは次のとおりです: tkinter, math, numpy, dataclasses, typing, sys。\n- すべてのコードは単一の Python ファイルにまとめてください。

前へDeepSeek-OCR 次へGLM-4.6

最終更新 7 時間前

役に立ちましたか？

hashtag⚙️ 推奨要件

hashtag💭Kimi-K2-Thinking ガイド

hashtag🌙 公式推奨設定：

hashtag✨ llama.cpp で Kimi K2 Thinking を実行

hashtag🤔Thinking タグがない？

hashtagOLLAMA_MODELS=unsloth ollama run merged_file.gguf

hashtag🔍2025年11月7日：私たちは Kimi チームに通知し、デフォルトのシステムプロンプトが

hashtagまた正しい EOS トークンは [EOS] ではなく <|im_end|> であるべきだと判明し、これは私たちのモデル変換でも修正しました。

hashtag🌙 公式推奨設定：

hashtag🔢 （任意）Moonshot はシステムプロンプトとして以下も提案しています：

hashtag💾 モデルのアップロード

hashtagBF16 フォーマット

hashtag🐦 allow_patterns = ["*UD-TQ1_0*"], # Dynamic 1bit (281GB) Dynamic 2bit (381GB) の場合は "*UD-Q2_K_XL*" を使用してください

⚙️ 推奨要件

💭Kimi-K2-Thinking ガイド

🌙 公式推奨設定：

✨ llama.cpp で Kimi K2 Thinking を実行

🤔Thinking タグがない？

OLLAMA_MODELS=unsloth ollama run merged_file.gguf

🔍2025年11月7日：私たちは Kimi チームに通知し、デフォルトのシステムプロンプトが

また正しい EOS トークンは [EOS] ではなく <|im_end|> であるべきだと判明し、これは私たちのモデル変換でも修正しました。

🌙 公式推奨設定：

🔢 （任意）Moonshot はシステムプロンプトとして以下も提案しています：

💾 モデルのアップロード

BF16 フォーマット

🐦 allow_patterns = ["UD-TQ1_0"], # Dynamic 1bit (281GB) Dynamic 2bit (381GB) の場合は "UD-Q2_K_XL" を使用してください