🥝Kimi K2.5: ローカル実行ガイド
Kimi-K2.5を自分のローカルデバイスで実行するガイド!
Kimi-K2.5 は Moonshot の新しいモデルで、視覚、コーディング、エージェント、チャットの各タスクで SOTA 性能を達成します。1T パラメータのハイブリッド推論モデルは 600GB のディスク容量を必要としますが、量子化版は Unsloth Dynamic 1.8-bit これを 240GB(-60% のサイズ)に削減します: Kimi-K2.5-GGUF
すべてのアップロードは Unsloth Dynamic 2.0 SOTA の Aider および 5-shot MMLU の性能向け。Dynamic 1–2 bit GGUF が以下でどのような性能を示すかご覧ください コーディングベンチマーク.
⚙️ 推奨要件
必要なのは >240GB のディスク容量 1-bit 量子化を実行するためです!
最適な性能を得るには、利用可能な総メモリ(VRAM + システム RAM)が、ダウンロードする量子化済みモデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cpp は SSD/HDD オフローディング経由で実行できますが、推論は遅くなります。
1.8-bit(UD-TQ1_0)量子化は、すべての MoE 層をシステム RAM(または高速 SSD)にオフロードすれば、単一の 24GB GPU で動作します。RAM が約 256GB あれば、約 10 トークン/秒が見込めます。Kimi K2.5 のフルモデルは 630GB で、通常は少なくとも 4× H200 GPU が必要です。
モデルが収まれば、B200 を使うと >40 トークン/秒が得られます。
モデルをほぼ フル精度で動かすには、4-bit か 5-bit の量子化を使えます。安全を見て、より高い量子化を使っても構いません。
高い性能を得るには、10+ トークン/秒に到達するために >240GB の共有メモリ(または RAM+VRAM の合計)を目指してください。それ未満でも動作はしますが、速度は低下します(llama.cpp は mmap/ディスクオフロード経由でも実行可能です)。約 10 トークン/秒から <2 トークン/秒まで落ちることがあります。
サイズと品質のバランスが良いものとして UD-Q2_K_XL(375GB)を推奨します。目安は、RAM+VRAM ≈ 量子化サイズ です。それ以外でも動作しますが、オフロードのために遅くなります。
🥝 Kimi K2.5 実行ガイド
Kimi-K2.5 は、用途ごとに異なるサンプリングパラメータが必要です。
現在は 視覚サポートがありません が、llama.cpp がまもなく対応してくれることを期待しています。
モデルを完全精度で実行するには、4-bit または 5-bit の Dynamic GGUF(例: UD_Q4_K_XL)を使うだけで十分です。元々モデルが INT4 形式で公開されているためです。
小さな量子化差異に備えて念のためより高ビットの量子化を選ぶこともできますが、ほとんどの場合は不要です。
🌙 使用ガイド:
Moonshot AI によると、Kimi K2.5 の推論に推奨される設定は次のとおりです:
temperature = 0.6
temperature = 1.0
top_p = 0.95
top_p = 0.95
min_p = 0.01
min_p = 0.01
次を設定してください temperature 1.0 重複や不整合を減らすため。
推奨コンテキスト長 = 98,304(最大 256K)
注: 使用するツールによって設定が異なる場合があります
次の設定を推奨します min_p を 0.01 に 低確率のありえないトークンの出現を抑制するため。さらに repeat penalty を無効化するか、1.0 に設定 してください。
Kimi K2.5 のチャットテンプレート
実行すると tokenizer.apply_chat_template([{"role": "user", "content": "1+1 は何ですか?"},]) 次のようになります:
🦥 Unsloth Studio で Kimi-K2.5 を実行
Kimi-K2.5 は Unsloth Studioで実行およびファインチューニングできます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio を使えば、モデルをローカルで実行できます MacOS、Windows、Linux および:
検索、ダウンロード、 GGUF を実行 し、safetensor モデルを扱う
自己修復 ツール呼び出し + Web 検索
コード実行 (Python、Bash)
自動推論 パラメータ調整(temp、top-p など)
llama.cpp を介した高速な CPU + GPU 推論
LLM を学習する VRAM を 70% 少なくして 2 倍高速

Unslothをインストールする
ターミナルで実行:
MacOS、Linux、WSL:
Windows PowerShell:
インストールはすぐに終わり、およそ1〜2分かかります。
Unsloth を起動
MacOS、Linux、WSL、Windows:
その後、 http://localhost:8888 をブラウザで開いてください。
Kimi-K2.5 を検索してダウンロード
初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップして、直接チャットへ進めます。
その後、 Studio Chat タブで Kimi-K2.5 を検索バーで検索し、必要なモデルと量子化版をダウンロードしてください。モデルを実行するのに十分な計算資源があることを確認してください。

Kimi-K2.5 を実行
Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。
詳細は、 Unsloth Studio 推論ガイド.

✨ llama.cpp で Kimi K2.5 を実行
このガイドでは、最小の 1-bit 量子化版(サイズ 240GB)を実行します。量子化タイプは 2-bit、3-bit などに自由に変更できます。モデルをほぼ フル精度で動かすには、4-bit か 5-bit の量子化を使えます。安全を見て、より高い量子化を使っても構いません。
最新の
llama.cppを GitHub こちらから取得してください。以下のビルド手順に従うこともできます。-DGGML_CUDA=ONを-DGGML_CUDA=OFFに変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスの場合、次を設定して-DGGML_CUDA=OFFその後は通常どおり続けてください - Metal サポートは既定で有効です。
もし
llama.cppモデルを直接読み込むには、以下のようにできます。(:UD-TQ1_0) は量子化タイプです。Hugging Face(ポイント3)経由でもダウンロードできます。これは次と同様です:ollama runに似ています。使用export LLAMA_CACHE="folder"してllama.cpp特定の場所に保存するために。
LLAMA_SET_ROWS=1 は llama.cpp を少し速くします!使いましょう! --fit on すべての GPU と CPU にモデルを最適に自動フィットさせます。
--fit onを使えば、モデルはシステムに自動フィットします。--fit onもし使用せず、GPU の合計メモリが約 360GB ある場合は、-ot ".ffn_.*_exps.=CPU"を削除して最大速度を得てください。
使用 --fit on GPU と CPU への自動フィット用です。うまくいかない場合は、下記を参照してください:
ぜひ試してみてください -ot ".ffn_.*_exps.=CPU" すべての MoE レイヤーを CPU にオフロードします!これにより、非 MoE レイヤーを 1 枚の GPU に収められるようになり、生成速度が向上します。GPU 容量がさらにある場合は、正規表現を調整してより多くのレイヤーを収めることができます。
GPU メモリがもう少し多い場合は、試してみてください -ot ".ffn_(up|down)_exps.=CPU" これにより、アップ投影とダウン投影の MoE レイヤーがオフロードされます。
試してみてください -ot ".ffn_(up)_exps.=CPU" GPU メモリがさらに多い場合は、これを使ってください。これにより、アップ投影の MoE レイヤーのみがオフロードされます。
そして最後に、 -ot ".ffn_.*_exps.=CPU" を使ってすべてのレイヤーをオフロードします。
これは最も少ない VRAM を使用します。 正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"
モデルのダウンロード(
pip install huggingface_hub hf_transfer最大速度を得てください! huggingface.co/unsloth/Kimi-K2.5-GGUF ダウンロードが止まる場合は、 Hugging Face Hub、XETデバッグ
ダウンロードが 90〜95% あたりで止まる場合は、 トラブルシューティングガイド.
任意のプロンプトを実行。
編集
--ctx-size 16384をご覧ください。コンテキスト長のためです。--fit on
例として、"HTML で Flappy Bird ゲームを作成して" と入力すると、次のようになります:

✨ llama-server と OpenAI の completion ライブラリでデプロイ
を使うと --kv-unified は llama.cpp での推論サービングを高速化できます!こちらを参照: https://www.reddit.com/r/LocalLLaMA/comments/1qnwa33/glm_47_flash_huge_performance_improvement_with_kvu/
に従って llama.cpp をインストールした後、以下を使って OpenAI 互換サーバーを起動できます: Kimi K2.5、以下を使って OpenAI 互換サーバーを起動できます:
その後、OpenAI の Python ライブラリを使います pip install openai :
そして、次の結果になります:

そして、別の llama-server 画面では:

📊 ベンチマーク
以下で、ベンチマークを表形式で確認できます:

推論 & 知識
HLE-フル
30.1
34.5
30.8
37.5
25.1†
-
HLE-フル(ツール使用)
50.2
45.5
43.2
45.8
40.8†
-
AIME 2025
96.1
100
92.8
95.0
93.1
-
HMMT 2025(2月)
95.4
99.4
92.9*
97.3*
92.5
-
IMO-AnswerBench
81.8
86.3
78.5*
83.1*
78.3
-
GPQA-Diamond
87.6
92.4
87.0
91.9
82.4
-
MMLU-Pro
87.1
86.7*
89.3*
90.1
85.0
-
画像 & 動画
MMMU-Pro
78.5
79.5*
74.0
81.0
-
69.3
CharXiv(RQ)
77.5
82.1
67.2*
81.4
-
66.1
MathVision
84.2
83.0
77.1*
86.1*
-
74.6
MathVista(mini)
90.1
82.8*
80.2*
89.8*
-
85.8
ZeroBench
9
9*
3*
8*
-
4*
ZeroBench(ツール使用)
11
7*
9*
12*
-
3*
OCRBench
92.3
80.7*
86.5*
90.3*
-
87.5
OmniDocBench 1.5
88.8
85.7
87.7*
88.5
-
82.0*
InfoVQA(val)
92.6
84*
76.9*
57.2*
-
89.5
SimpleVQA
71.2
55.8*
69.7*
69.7*
-
56.8*
WorldVQA
46.3
28.0
36.8
47.4
-
23.5
VideoMMMU
86.6
85.9
84.4*
87.6
-
80.0
MMVU
80.4
80.8*
77.3
77.5
-
71.1
MotionBench
70.4
64.8
60.3
70.3
-
-
VideoMME
87.4
86.0*
-
88.4*
-
79.0
LongVideoBench
79.8
76.5*
67.2*
77.7*
-
65.6*
LVBench
75.9
-
-
73.5*
-
63.6
コーディング
SWE-Bench Verified
76.8
80.0
80.9
76.2
73.1
-
SWE-Bench Pro
50.7
55.6
55.4*
-
-
-
SWE-Bench Multilingual
73.0
72.0
77.5
65.0
70.2
-
Terminal Bench 2.0
50.8
54.0
59.3
54.2
46.4
-
PaperBench
63.5
63.7*
72.9*
-
47.1
-
CyberGym
41.3
-
50.6
39.9*
17.3*
-
SciCode
48.7
52.1
49.5
56.1
38.9
-
OJBench(cpp)
57.4
-
54.6*
68.5*
54.7*
-
LiveCodeBench(v6)
85.0
-
82.2*
87.4*
83.3
-
長文コンテキスト
Longbench v2
61.0
54.5*
64.4*
68.2*
59.8*
-
AA-LCR
70.0
72.3*
71.3*
65.3*
64.3*
-
エージェント検索
BrowseComp
60.6
65.8
37.0
37.8
51.4
-
BrowseComp(ctx 管理あり)
74.9
65.8
57.8
59.2
67.6
-
BrowseComp(Agent Swarm)
78.4
-
-
-
-
-
WideSearch(item-f1)
72.7
-
76.2*
57.0
32.5*
-
WideSearch(item-f1 Agent Swarm)
79.0
-
-
-
-
-
DeepSearchQA
77.1
71.3*
76.1*
63.2*
60.9*
-
FinSearchCompT2&T3
67.8
-
66.2*
49.9
59.1*
-
Seal-0
57.4
45.0
47.7*
45.5*
49.5*
-
注記
*= 著者によって再評価されたスコア(以前は公開されていなかったもの)。†= DeepSeek V3.2 のスコアは、脚注に記載のとおり、テキストのみのサブセットに対応します。-= 未評価 / 利用不可。
最終更新
役に立ちましたか?

