🥝Kimi K2.5:ローカルでの実行ガイド
Kimi-K2.5 を自分のローカルデバイスで実行するためのガイド!
Kimi-K2.5はMoonshotの新しいモデルで、ビジョン、コーディング、エージェント的タスク、チャットタスクでSOTAの性能を達成します。1Tパラメータのハイブリッド推論モデルは600GBのディスク容量を必要としますが、量子化された Unsloth Dynamic 1.8-bit バージョンではこれが240GBに削減されます(サイズ-60%): Kimi-K2.5-GGUF
すべてのアップロードはUnslothを使用しています Dynamic 2.0 SOTAのAiderおよび5ショットMMLU性能のため。私たちの動的1–2ビットGGUFがどのように コーディングベンチマークで.
⚙️ 推奨要件
必要です >240GBのディスク容量 1ビット量子化を実行するには!
唯一の要件は ディスク容量 + RAM + VRAM ≥ 240GBです。つまり、モデルを実行するためにそれほど多くのRAMやVRAM(GPU)が必要というわけではありませんが、その場合は動作がかなり遅くなります。
1.8ビット(UD-TQ1_0)量子化は、すべてのMoEレイヤーをシステムRAM(または高速SSD)にオフロードすれば、単一の24GB GPUで動作します。約256GBのRAMがあれば、約10トークン/sを期待できます。フルのKimi K2.5モデルは630GBで、通常は少なくとも4台のH200 GPUを必要とします。
モデルが収まれば、B200を使用した場合に>40トークン/sが得られます。
モデルをほぼ フル精度で実行するには、4ビットまたは5ビットの量子化を使用できます。安全のためにそれ以上のビットを使っても構いません。
高い性能を得るには、10トークン/s以上を目指すなら統一メモリ(またはRAM+VRAMの合計)で>240GBを目標にしてください。これを下回ると動作はしますが速度は低下します(llama.cppはmmap/ディスクオフロードで動作可能)し、約10トークン/sから<2トークン/sに落ちる可能性があります。
UD-Q2_K_XL(375GB)を、サイズと品質のバランスが良い推奨として勧めます。経験則としては:RAM+VRAM ≈ 量子化サイズ;そうでない場合でも動作しますが、オフロードにより遅くなります。
🥝 Kimi K2.5 実行ガイド
Kimi-K2.5は用途ごとに異なるサンプリングパラメータを必要とします。
現時点では ビジョンのサポートはありません が、llama.cppが近いうちに対応することを期待しています。
モデルをフル精度で実行するには、元々INT4形式でリリースされているため、4ビットまたは5ビットのDynamic GGUF(例: UD_Q4_K_XL)を使用するだけで十分です。
小さな量子化の差異に備えてより高ビットの量子化を選ぶこともできますが、ほとんどの場合これは不要です。
Kimi K2.5 と Kimi K2 Thinking の違い
両モデルとも修正されたDeepSeek V3 MoEアーキテクチャを使用しています。
rope_scaling.beta_fastK2.5は32.0、K2 Thinkingは1.0を使用します。MoonViTはネイティブ解像度の200Mパラメータのビジョンエンコーダーです。Kimi-VL-A3B-Instructで使用されているものと似ています。
🌙 利用ガイド:
Moonshot AIによると、これらがKimi K2.5推論の推奨設定です:
temperature = 0.6
temperature = 1.0
top_p = 0.95
top_p = 0.95
min_p = 0.01
min_p = 0.01
を設定してください temperature 1.0 反復や一貫性の欠如を減らすため。
推奨コンテキスト長 = 98,304(最大256Kまで)
注意:異なるツールを使用すると異なる設定が必要になる場合があります
私たちは次を設定することを推奨します、 min_pを0.01に 確率の低い起こりにくいトークンの出現を抑制するため。そして repeat penaltyを無効にするか1.0に設定してください 必要に応じて。
Kimi K2.5用チャットテンプレート
実行例 tokenizer.apply_chat_template([{"role": "user", "content": "What is 1+1?"},]) は次を返します:
✨ llama.cppでKimi K2.5を実行する
このガイドでは、最小の1ビット量子化(サイズ240GB)を実行します。量子化タイプを2ビット、3ビットなどに変更しても構いません。モデルをほぼ フル精度で実行するには、4ビットまたは5ビットの量子化を使用できます。安全のためにそれ以上のビットを使っても構いません。
最新の
llama.cppを GitHub で入手できます。下のビルド手順に従うこともできます。変更してください-DGGML_CUDA=ONから-DGGML_CUDA=OFFGPU がない場合や CPU 推論のみを行いたい場合は。
直接モデルを読み込むために
llama.cppモデルを直接読み込むには、以下を実行できます:(:UD-TQ1_0)は量子化タイプです。Hugging Face経由(ポイント3)でもダウンロードできます。これは次と似ています、ollama runに類似しています。使用してくださいexport LLAMA_CACHE="folder"で強制的にllama.cpp特定の場所に保存するために。
LLAMA_SET_ROWS=1 を使うとllama.cppが少し速くなります!使ってください! --fit on すべてのGPUとCPU上でモデルを自動的に最適に収めます。
--fit onはモデルをシステムに自動適合させます。もし--fit onを使っておらず、合計で約360GBのGPUメモリを持っているなら、最大速度を得るために-ot ".ffn_.*_exps.=CPU"を削除してください。
使用する --fit on GPUとCPUで自動適合するためのものです。これが機能しない場合は、以下を参照してください:
ぜひお試しください -ot ".ffn_.*_exps.=CPU" ですべてのMoE層をCPUにオフロードします!これにより、非MoE層を1つのGPUに収められるようになり、生成速度が向上します。GPU容量が大きい場合は正規表現をカスタマイズしてより多くの層を適合させることができます。
もしもう少しGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これはupおよびdownの投影MoE層をオフロードします。
試してみてください -ot ".ffn_(up)_exps.=CPU" もしさらに多くのGPUメモリがある場合。これはup投影MoE層のみをオフロードします。
そして最後にすべての層を次でオフロードします -ot ".ffn_.*_exps.=CPU" これは最小のVRAMを使用します。
正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は6層目以降のgate、up、downのMoE層をオフロードすることを意味します。
(以下をインストールした後に)モデルをダウンロードします
pip install huggingface_hub hf_transfer)。サイズと精度のバランスを取るために私たちの2ビットダイナミック量子化UD-Q2_K_XLを使うことを推奨します。すべてのバージョンはこちら: huggingface.co/unsloth/Kimi-K2.5-GGUF
ダウンロードが90〜95%付近で止まる場合は、私たちの トラブルシューティングガイド.
任意のプロンプトを実行してください。
編集
--ctx-size 16384コンテキスト長に関する説明のために。自動コンテキスト長検出 via を使う場合はこれを省略することもできます--fit on
例として「HTMLでFlappy Birdゲームを作って」と試すと、次のようになります:

✨ llama-serverとOpenAIのcompletionライブラリでデプロイ
使用すると、 --kv-unified はllama.cppでの推論サービングを高速化できます!参照: https://www.reddit.com/r/LocalLLaMA/comments/1qnwa33/glm_47_flash_huge_performance_improvement_with_kvu/
llama.cppをに従ってインストールした後、次を使ってOpenAI互換サーバーを起動できます: Kimi K2.5以下のようにしてOpenAI互換サーバーを起動できます:
その後、OpenAIのPythonライブラリを使用します(インストール後) pip install openai :
そして我々は次のようになります:

そして別のllama-serverの画面では:

📊 ベンチマーク
ベンチマークの表は以下をご覧ください:

推論・知識
HLE-Full
30.1
34.5
30.8
37.5
25.1†
-
HLE-Full(ツールあり)
50.2
45.5
43.2
45.8
40.8†
-
AIME 2025
96.1
100
92.8
95.0
93.1
-
HMMT 2025(2月)
95.4
99.4
92.9*
97.3*
92.5
-
IMO-AnswerBench
81.8
86.3
78.5*
83.1*
78.3
-
GPQA-Diamond
87.6
92.4
87.0
91.9
82.4
-
MMLU-Pro
87.1
86.7*
89.3*
90.1
85.0
-
画像・動画
MMMU-Pro
78.5
79.5*
74.0
81.0
-
69.3
CharXiv(RQ)
77.5
82.1
67.2*
81.4
-
66.1
MathVision
84.2
83.0
77.1*
86.1*
-
74.6
MathVista(mini)
90.1
82.8*
80.2*
89.8*
-
85.8
ZeroBench
9
9*
3*
8*
-
4*
ZeroBench(ツールあり)
11
7*
9*
12*
-
3*
OCRBench
92.3
80.7*
86.5*
90.3*
-
87.5
OmniDocBench 1.5
88.8
85.7
87.7*
88.5
-
82.0*
InfoVQA(検証)
92.6
84*
76.9*
57.2*
-
89.5
SimpleVQA
71.2
55.8*
69.7*
69.7*
-
56.8*
WorldVQA
46.3
28.0
36.8
47.4
-
23.5
VideoMMMU
86.6
85.9
84.4*
87.6
-
80.0
MMVU
80.4
80.8*
77.3
77.5
-
71.1
MotionBench
70.4
64.8
60.3
70.3
-
-
VideoMME
87.4
86.0*
-
88.4*
-
79.0
LongVideoBench
79.8
76.5*
67.2*
77.7*
-
65.6*
LVBench
75.9
-
-
73.5*
-
63.6
コーディング
SWE-Bench Verified
76.8
80.0
80.9
76.2
73.1
-
SWE-Bench Pro
50.7
55.6
55.4*
-
-
-
SWE-Bench 多言語版
73.0
72.0
77.5
65.0
70.2
-
Terminal Bench 2.0
50.8
54.0
59.3
54.2
46.4
-
PaperBench
63.5
63.7*
72.9*
-
47.1
-
CyberGym
41.3
-
50.6
39.9*
17.3*
-
SciCode
48.7
52.1
49.5
56.1
38.9
-
OJBench(cpp)
57.4
-
54.6*
68.5*
54.7*
-
LiveCodeBench(v6)
85.0
-
82.2*
87.4*
83.3
-
長文コンテキスト
Longbench v2
61.0
54.5*
64.4*
68.2*
59.8*
-
AA-LCR
70.0
72.3*
71.3*
65.3*
64.3*
-
エージェンティック検索
BrowseComp
60.6
65.8
37.0
37.8
51.4
-
BrowseComp(コンテキスト管理あり)
74.9
65.8
57.8
59.2
67.6
-
BrowseComp(エージェントスウォーム)
78.4
-
-
-
-
-
WideSearch(item-f1)
72.7
-
76.2*
57.0
32.5*
-
WideSearch(item-f1 エージェントスウォーム)
79.0
-
-
-
-
-
DeepSearchQA
77.1
71.3*
76.1*
63.2*
60.9*
-
FinSearchCompT2&T3
67.8
-
66.2*
49.9
59.1*
-
Seal-0
57.4
45.0
47.7*
45.5*
49.5*
-
注記
*= 著者によって再評価されたスコア(以前は公開されていません)。†= DeepSeek V3.2のスコアは、そのテキストのみのサブセットに対応します(脚注に記載)。-= 評価されていない / 利用不可。
最終更新
役に立ちましたか?

