🥝Kimi K2.5: ローカルで実行するガイド

Kimi-K2.5 を自分のローカルデバイスで実行するためのガイド!

Kimi-K2.5はMoonshotの新モデルで、ビジョン、コーディング、エージェント、チャットタスクにおいてSOTAの性能を達成しています。1Tパラメータのハイブリッド推論モデルは600GBのディスク容量を必要としますが、量子化された Unsloth Dynamic 1.8-bit バージョンではこれが240GBに減少します(サイズ-60%): Kimi-K2.5-GGUFarrow-up-right

すべてのアップロードはUnslothを使用します Dynamic 2.0 はSOTAのAiderおよび5ショットMMLU性能のためのものです。我々のDynamic 1–2ビットGGUFがどのように コーディングベンチマークで.

⚙️ 推奨要件

circle-info

必要です >240GBのディスク空き容量 1ビット量子化を実行するには!

最高のパフォーマンスを得るには、利用可能な合計メモリ(VRAM+システムRAM)がダウンロードしている量子化モデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cppはSSD/HDDのオフローディングを介して実行できますが、推論は遅くなります。

1.8ビット(UD-TQ1_0)量子化は、すべてのMoE層をシステムRAM(または高速なSSD)にオフロードすれば、単一の24GB GPUで動作します。約256GBのRAMがあれば、約10トークン/秒を期待できます。完全なKimi K2.5モデルは630GBで、通常は少なくとも4基のH200 GPUを必要とします。

モデルが収まる場合、B200を使用すると>40トークン/秒を得られます。

モデルをほぼ フルプレシジョンで動かすには、4ビットまたは5ビットの量子化を使用できます。安全のためにそれ以上のビット数を使用しても構いません。

高い性能を得るには、10トークン/秒以上を目指す場合、統一メモリ(または合計RAM+VRAM)を>240GBにすることを推奨します。それ未満でも動作しますが速度は低下します(llama.cppはmmap/ディスクオフロードで実行可能)し、約10トークン/秒から<2トークン/秒に落ちる可能性があります。

サイズと品質のバランスとしてUD-Q2_K_XL(375GB)を推奨します。実務的な目安:RAM+VRAM ≈ 量子化サイズ;そうでない場合でも動作しますがオフロードによって遅くなります。

🥝 Kimi K2.5実行ガイドを開く

Kimi-K2.5はユースケースごとに異なるサンプリングパラメータを必要とします。

現在 ビジョン対応はありません モデルにはまだありませんが、llama.cppが近いうちにサポートすることを期待しています。

circle-check

Kimi K2.5とKimi K2 Thinkingの違い

  • 両モデルは修正されたDeepSeek V3 MoEアーキテクチャを使用しています。

  • rope_scaling.beta_fast K2.5は32.0を使用し、K2 Thinkingは1.0です。

  • MoonViTはネイティブ解像度の200Mパラメータのビジョンエンコーダーです。Kimi-VL-A3B-Instructで使用されているものと類似しています。

🌙 使用ガイド:

Moonshot AIによれば、これらがKimi K2.5推論の推奨設定です:

デフォルト設定(インスタントモード)
Thinkingモード

temperature = 0.6

temperature = 1.0

top_p = 0.95

top_p = 0.95

min_p = 0.01

min_p = 0.01

  • 次を設定してください: temperature 1.0 繰り返しや一貫性の欠如を減らすために。

  • 推奨コンテキスト長 = 98,304(最大256Kまで)

  • 注意:異なるツールを使用する場合は異なる設定が必要になることがあります

circle-info

次を設定することを推奨します: min_p を0.01に 低確率の起こりにくいトークンの出現を抑制するためです。そして、 リピートペナルティを無効化するか1.0に設定してください、 必要に応じて。

Kimi K2.5用チャットテンプレート

実行中 tokenizer.apply_chat_template([{"role": "user", "content": "What is 1+1?"},]) の結果:

✨ llama.cppでKimi K2.5を実行する

このガイドでは最小の1ビット量子化(サイズ240GB)を実行します。量子化タイプを2ビット、3ビットなどに変更しても構いません。モデルをほぼ フルプレシジョンで動かすには、4ビットまたは5ビットの量子化を使用できます。安全のためにそれ以上のビット数を使用しても構いません。

  1. 最新の llama.cpp を入手してください GitHubはこちらarrow-up-right。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPUがない場合やCPUによる推論のみを行いたい場合。 AppleのMac/Metalデバイスの場合、を設定し、 -DGGML_CUDA=OFF 通常通り続けてください - Metalサポートはデフォルトで有効です。

  1. もし直接モデルを読み込むために llama.cpp 以下のようにすることができます:(:UD-TQ1_0)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使って特定の場所に保存するように強制できます。モデルの最大コンテキスト長は256Kです。 llama.cpp を特定の場所に保存するように強制できます。

circle-check
  1. --fit を はシステムにモデルを自動フィットします。もし --fit を を使っていない場合で合計GPUメモリが約360GBあるなら、 -ot ".ffn_.*_exps.=CPU" を削除して最大速度を得てください。

circle-info

使用してください --fit を はGPUとCPUでの自動フィッティング用です。これが機能しない場合は以下を参照してください:

以下を試してください、 -ot ".ffn_.*_exps.=CPU" すべてのMoE層をCPUにオフロードするために!これにより非MoE層を1つのGPUに収めることが可能になり、生成速度が向上します。GPU容量がよりある場合は、正規表現をカスタマイズしてより多くの層を適合させることができます。

もう少しGPUメモリがある場合は、次を試してください: -ot ".ffn_(up|down)_exps.=CPU" これはupとdownの投影MoE層をオフロードします。

試してみてください -ot ".ffn_(up)_exps.=CPU" さらに多くのGPUメモリがある場合はこれを試してください。これはup投影MoE層のみをオフロードします。

最後にすべての層をオフロードするには -ot ".ffn_.*_exps.=CPU" を使ってください。

これは最も少ないVRAMを使用します。 正規表現はカスタマイズも可能です。例えば、 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"

  1. pip install huggingface_hub hf_transfer をインストールしてください)。Q4_K_Mや他の量子化バージョンを選ぶことができます。 pip install huggingface_hub hf_transfer を実行してください)。サイズと精度のバランスを取るために2ビットのダイナミック量子化UD-Q2_K_XLを使用することを推奨します。すべてのバージョンは:arrow-up-right huggingface.co/unsloth/Kimi-K2.5-GGUF Hugging Face Hub、XET デバッグ

circle-info

--include "*UD-TQ1_0*" # Dynamic 2bitには "*UD-Q2_K_XL*" を使用 ダウンロードが90〜95%で止まるような場合は、当社のarrow-up-right.

  1. トラブルシューティングガイド

  2. を参照してください。 --ctx-size 16384 --ctx-size 16384 --fit を

  1. --min_p 0.01 \

</html>

circle-check

https://www.reddit.com/r/LocalLLaMA/comments/1qnwa33/glm_47_flash_huge_performance_improvement_with_kvu/ Kimi K2.5llama.cppを前述の通りインストールした後、以下を使用してOpenAI互換のサーバーを起動できます:

その後、OpenAIのPythonライブラリを使用します(インストール後): pip install openai :

すると、次のようになります:

そして別のllama-serverの画面では:

📊 ベンチマーク

以下で表形式のベンチマークをさらに確認できます:

推論・知識

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

HLE-Full

30.1

34.5

30.8

37.5

25.1†

-

HLE-Full(ツール利用時)

50.2

45.5

43.2

45.8

40.8†

-

AIME 2025

96.1

100

92.8

95.0

93.1

-

HMMT 2025(2月)

95.4

99.4

92.9*

97.3*

92.5

-

IMO-AnswerBench

81.8

86.3

78.5*

83.1*

78.3

-

GPQA-Diamond

87.6

92.4

87.0

91.9

82.4

-

MMLU-Pro

87.1

86.7*

89.3*

90.1

85.0

-

画像とビデオ

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

MMMU-Pro

78.5

79.5*

74.0

81.0

-

69.3

CharXiv(RQ)

77.5

82.1

67.2*

81.4

-

66.1

MathVision

84.2

83.0

77.1*

86.1*

-

74.6

MathVista(ミニ)

90.1

82.8*

80.2*

89.8*

-

85.8

ZeroBench

9

9*

3*

8*

-

4*

ZeroBench(ツールあり)

11

7*

9*

12*

-

3*

OCRBench

92.3

80.7*

86.5*

90.3*

-

87.5

OmniDocBench 1.5

88.8

85.7

87.7*

88.5

-

82.0*

InfoVQA(検証)

92.6

84*

76.9*

57.2*

-

89.5

SimpleVQA

71.2

55.8*

69.7*

69.7*

-

56.8*

WorldVQA

46.3

28.0

36.8

47.4

-

23.5

VideoMMMU

86.6

85.9

84.4*

87.6

-

80.0

MMVU

80.4

80.8*

77.3

77.5

-

71.1

MotionBench

70.4

64.8

60.3

70.3

-

-

VideoMME

87.4

86.0*

-

88.4*

-

79.0

LongVideoBench

79.8

76.5*

67.2*

77.7*

-

65.6*

LVBench

75.9

-

-

73.5*

-

63.6

コーディング

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

SWE-Bench 検証済み

76.8

80.0

80.9

76.2

73.1

-

SWE-Bench Pro

50.7

55.6

55.4*

-

-

-

SWE-Bench 多言語

73.0

72.0

77.5

65.0

70.2

-

Terminal Bench 2.0

50.8

54.0

59.3

54.2

46.4

-

PaperBench

63.5

63.7*

72.9*

-

47.1

-

CyberGym

41.3

-

50.6

39.9*

17.3*

-

SciCode

48.7

52.1

49.5

56.1

38.9

-

OJBench(cpp)

57.4

-

54.6*

68.5*

54.7*

-

LiveCodeBench(v6)

85.0

-

82.2*

87.4*

83.3

-

長文コンテキスト

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

Longbench v2

61.0

54.5*

64.4*

68.2*

59.8*

-

AA-LCR

70.0

72.3*

71.3*

65.3*

64.3*

-

エージェント検索

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

BrowseComp

60.6

65.8

37.0

37.8

51.4

-

BrowseComp(コンテキスト管理あり)

74.9

65.8

57.8

59.2

67.6

-

BrowseComp(エージェント群)

78.4

-

-

-

-

-

WideSearch(アイテム-f1)

72.7

-

76.2*

57.0

32.5*

-

WideSearch(アイテム-f1 エージェント群)

79.0

-

-

-

-

-

DeepSearchQA

77.1

71.3*

76.1*

63.2*

60.9*

-

FinSearchCompT2&T3

67.8

-

66.2*

49.9

59.1*

-

Seal-0

57.4

45.0

47.7*

45.5*

49.5*

-

注記

  • * = 著者によって再評価されたスコア(以前は公開されていません)。

  • = DeepSeek V3.2 のスコアは、そのテキストのみのサブセットに対応します(脚注に記載の通り)。

  • - = 評価されていない/利用不可。

最終更新

役に立ちましたか?