🥝Kimi K2.5: ローカルで実行するガイド
Kimi-K2.5 を自分のローカルデバイスで実行するためのガイド!
Kimi-K2.5はMoonshotの新モデルで、ビジョン、コーディング、エージェント、チャットタスクにおいてSOTAの性能を達成しています。1Tパラメータのハイブリッド推論モデルは600GBのディスク容量を必要としますが、量子化された Unsloth Dynamic 1.8-bit バージョンではこれが240GBに減少します(サイズ-60%): Kimi-K2.5-GGUF
すべてのアップロードはUnslothを使用します Dynamic 2.0 はSOTAのAiderおよび5ショットMMLU性能のためのものです。我々のDynamic 1–2ビットGGUFがどのように コーディングベンチマークで.
⚙️ 推奨要件
必要です >240GBのディスク空き容量 1ビット量子化を実行するには!
最高のパフォーマンスを得るには、利用可能な合計メモリ(VRAM+システムRAM)がダウンロードしている量子化モデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cppはSSD/HDDのオフローディングを介して実行できますが、推論は遅くなります。
1.8ビット(UD-TQ1_0)量子化は、すべてのMoE層をシステムRAM(または高速なSSD)にオフロードすれば、単一の24GB GPUで動作します。約256GBのRAMがあれば、約10トークン/秒を期待できます。完全なKimi K2.5モデルは630GBで、通常は少なくとも4基のH200 GPUを必要とします。
モデルが収まる場合、B200を使用すると>40トークン/秒を得られます。
モデルをほぼ フルプレシジョンで動かすには、4ビットまたは5ビットの量子化を使用できます。安全のためにそれ以上のビット数を使用しても構いません。
高い性能を得るには、10トークン/秒以上を目指す場合、統一メモリ(または合計RAM+VRAM)を>240GBにすることを推奨します。それ未満でも動作しますが速度は低下します(llama.cppはmmap/ディスクオフロードで実行可能)し、約10トークン/秒から<2トークン/秒に落ちる可能性があります。
サイズと品質のバランスとしてUD-Q2_K_XL(375GB)を推奨します。実務的な目安:RAM+VRAM ≈ 量子化サイズ;そうでない場合でも動作しますがオフロードによって遅くなります。
🥝 Kimi K2.5実行ガイドを開く
Kimi-K2.5はユースケースごとに異なるサンプリングパラメータを必要とします。
現在 ビジョン対応はありません モデルにはまだありませんが、llama.cppが近いうちにサポートすることを期待しています。
モデルをフルプレシジョンで動かすには、4ビットまたは5ビットのDynamic GGUF(例:UD_Q4_K_XL)を使用するだけで十分です。モデルは元々INT4形式でリリースされました。
小さな量子化差がある場合に備えて、安全のためにより高いビットの量子化を選ぶこともできますが、ほとんどの場合これは不要です。
Kimi K2.5とKimi K2 Thinkingの違い
両モデルは修正されたDeepSeek V3 MoEアーキテクチャを使用しています。
rope_scaling.beta_fastK2.5は32.0を使用し、K2 Thinkingは1.0です。MoonViTはネイティブ解像度の200Mパラメータのビジョンエンコーダーです。Kimi-VL-A3B-Instructで使用されているものと類似しています。
🌙 使用ガイド:
Moonshot AIによれば、これらがKimi K2.5推論の推奨設定です:
temperature = 0.6
temperature = 1.0
top_p = 0.95
top_p = 0.95
min_p = 0.01
min_p = 0.01
次を設定してください: temperature 1.0 繰り返しや一貫性の欠如を減らすために。
推奨コンテキスト長 = 98,304(最大256Kまで)
注意:異なるツールを使用する場合は異なる設定が必要になることがあります
次を設定することを推奨します: min_p を0.01に 低確率の起こりにくいトークンの出現を抑制するためです。そして、 リピートペナルティを無効化するか1.0に設定してください、 必要に応じて。
Kimi K2.5用チャットテンプレート
実行中 tokenizer.apply_chat_template([{"role": "user", "content": "What is 1+1?"},]) の結果:
✨ llama.cppでKimi K2.5を実行する
このガイドでは最小の1ビット量子化(サイズ240GB)を実行します。量子化タイプを2ビット、3ビットなどに変更しても構いません。モデルをほぼ フルプレシジョンで動かすには、4ビットまたは5ビットの量子化を使用できます。安全のためにそれ以上のビット数を使用しても構いません。
最新の
llama.cppを入手してください GitHubはこちら。以下のビルド手順に従うこともできます。-DGGML_CUDA=ONを-DGGML_CUDA=OFFに変更してください。GPUがない場合やCPUによる推論のみを行いたい場合。 AppleのMac/Metalデバイスの場合、を設定し、-DGGML_CUDA=OFF通常通り続けてください - Metalサポートはデフォルトで有効です。
もし直接モデルを読み込むために
llama.cpp以下のようにすることができます:(:UD-TQ1_0)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これはollama runに似ています。export LLAMA_CACHE="folder"を使って特定の場所に保存するように強制できます。モデルの最大コンテキスト長は256Kです。llama.cppを特定の場所に保存するように強制できます。
LLAMA_SET_ROWS=1 はllama.cppを少し高速にします!使ってください! --fit を は、すべてのGPUとCPUにモデルを最適に自動調整します。
--fit をはシステムにモデルを自動フィットします。もし--fit をを使っていない場合で合計GPUメモリが約360GBあるなら、-ot ".ffn_.*_exps.=CPU"を削除して最大速度を得てください。
使用してください --fit を はGPUとCPUでの自動フィッティング用です。これが機能しない場合は以下を参照してください:
以下を試してください、 -ot ".ffn_.*_exps.=CPU" すべてのMoE層をCPUにオフロードするために!これにより非MoE層を1つのGPUに収めることが可能になり、生成速度が向上します。GPU容量がよりある場合は、正規表現をカスタマイズしてより多くの層を適合させることができます。
もう少しGPUメモリがある場合は、次を試してください: -ot ".ffn_(up|down)_exps.=CPU" これはupとdownの投影MoE層をオフロードします。
試してみてください -ot ".ffn_(up)_exps.=CPU" さらに多くのGPUメモリがある場合はこれを試してください。これはup投影MoE層のみをオフロードします。
最後にすべての層をオフロードするには -ot ".ffn_.*_exps.=CPU" を使ってください。
これは最も少ないVRAMを使用します。 正規表現はカスタマイズも可能です。例えば、 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"
pip install huggingface_hub hf_transfer
をインストールしてください)。Q4_K_Mや他の量子化バージョンを選ぶことができます。pip install huggingface_hub hf_transfer を実行してください)。サイズと精度のバランスを取るために2ビットのダイナミック量子化UD-Q2_K_XLを使用することを推奨します。すべてのバージョンは: huggingface.co/unsloth/Kimi-K2.5-GGUF Hugging Face Hub、XET デバッグ
--include "*UD-TQ1_0*" # Dynamic 2bitには "*UD-Q2_K_XL*" を使用 ダウンロードが90〜95%で止まるような場合は、当社の.
トラブルシューティングガイド
を参照してください。
--ctx-size 16384--ctx-size 16384--fit を
--min_p 0.01 \

</html>
✨ llama-serverとOpenAIのcompletionライブラリでデプロイ を使用すると、 --kv-unified llama.cppでの推論サービングが高速になる場合があります!こちらを参照:
https://www.reddit.com/r/LocalLLaMA/comments/1qnwa33/glm_47_flash_huge_performance_improvement_with_kvu/ Kimi K2.5llama.cppを前述の通りインストールした後、以下を使用してOpenAI互換のサーバーを起動できます:
その後、OpenAIのPythonライブラリを使用します(インストール後): pip install openai :
すると、次のようになります:

そして別のllama-serverの画面では:

📊 ベンチマーク
以下で表形式のベンチマークをさらに確認できます:

推論・知識
HLE-Full
30.1
34.5
30.8
37.5
25.1†
-
HLE-Full(ツール利用時)
50.2
45.5
43.2
45.8
40.8†
-
AIME 2025
96.1
100
92.8
95.0
93.1
-
HMMT 2025(2月)
95.4
99.4
92.9*
97.3*
92.5
-
IMO-AnswerBench
81.8
86.3
78.5*
83.1*
78.3
-
GPQA-Diamond
87.6
92.4
87.0
91.9
82.4
-
MMLU-Pro
87.1
86.7*
89.3*
90.1
85.0
-
画像とビデオ
MMMU-Pro
78.5
79.5*
74.0
81.0
-
69.3
CharXiv(RQ)
77.5
82.1
67.2*
81.4
-
66.1
MathVision
84.2
83.0
77.1*
86.1*
-
74.6
MathVista(ミニ)
90.1
82.8*
80.2*
89.8*
-
85.8
ZeroBench
9
9*
3*
8*
-
4*
ZeroBench(ツールあり)
11
7*
9*
12*
-
3*
OCRBench
92.3
80.7*
86.5*
90.3*
-
87.5
OmniDocBench 1.5
88.8
85.7
87.7*
88.5
-
82.0*
InfoVQA(検証)
92.6
84*
76.9*
57.2*
-
89.5
SimpleVQA
71.2
55.8*
69.7*
69.7*
-
56.8*
WorldVQA
46.3
28.0
36.8
47.4
-
23.5
VideoMMMU
86.6
85.9
84.4*
87.6
-
80.0
MMVU
80.4
80.8*
77.3
77.5
-
71.1
MotionBench
70.4
64.8
60.3
70.3
-
-
VideoMME
87.4
86.0*
-
88.4*
-
79.0
LongVideoBench
79.8
76.5*
67.2*
77.7*
-
65.6*
LVBench
75.9
-
-
73.5*
-
63.6
コーディング
SWE-Bench 検証済み
76.8
80.0
80.9
76.2
73.1
-
SWE-Bench Pro
50.7
55.6
55.4*
-
-
-
SWE-Bench 多言語
73.0
72.0
77.5
65.0
70.2
-
Terminal Bench 2.0
50.8
54.0
59.3
54.2
46.4
-
PaperBench
63.5
63.7*
72.9*
-
47.1
-
CyberGym
41.3
-
50.6
39.9*
17.3*
-
SciCode
48.7
52.1
49.5
56.1
38.9
-
OJBench(cpp)
57.4
-
54.6*
68.5*
54.7*
-
LiveCodeBench(v6)
85.0
-
82.2*
87.4*
83.3
-
長文コンテキスト
Longbench v2
61.0
54.5*
64.4*
68.2*
59.8*
-
AA-LCR
70.0
72.3*
71.3*
65.3*
64.3*
-
エージェント検索
BrowseComp
60.6
65.8
37.0
37.8
51.4
-
BrowseComp(コンテキスト管理あり)
74.9
65.8
57.8
59.2
67.6
-
BrowseComp(エージェント群)
78.4
-
-
-
-
-
WideSearch(アイテム-f1)
72.7
-
76.2*
57.0
32.5*
-
WideSearch(アイテム-f1 エージェント群)
79.0
-
-
-
-
-
DeepSearchQA
77.1
71.3*
76.1*
63.2*
60.9*
-
FinSearchCompT2&T3
67.8
-
66.2*
49.9
59.1*
-
Seal-0
57.4
45.0
47.7*
45.5*
49.5*
-
注記
*= 著者によって再評価されたスコア(以前は公開されていません)。†= DeepSeek V3.2 のスコアは、そのテキストのみのサブセットに対応します(脚注に記載の通り)。-= 評価されていない/利用不可。
最終更新
役に立ちましたか?

