🥝Kimi K2.5:ローカルでの実行ガイド

Kimi-K2.5 を自分のローカルデバイスで実行するためのガイド!

Kimi-K2.5はMoonshotの新しいモデルで、ビジョン、コーディング、エージェント的タスク、チャットタスクでSOTAの性能を達成します。1Tパラメータのハイブリッド推論モデルは600GBのディスク容量を必要としますが、量子化された Unsloth Dynamic 1.8-bit バージョンではこれが240GBに削減されます(サイズ-60%): Kimi-K2.5-GGUFarrow-up-right

すべてのアップロードはUnslothを使用しています Dynamic 2.0 SOTAのAiderおよび5ショットMMLU性能のため。私たちの動的1–2ビットGGUFがどのように コーディングベンチマークで.

⚙️ 推奨要件

circle-info

必要です >240GBのディスク容量 1ビット量子化を実行するには!

唯一の要件は ディスク容量 + RAM + VRAM ≥ 240GBです。つまり、モデルを実行するためにそれほど多くのRAMやVRAM(GPU)が必要というわけではありませんが、その場合は動作がかなり遅くなります。

1.8ビット(UD-TQ1_0)量子化は、すべてのMoEレイヤーをシステムRAM(または高速SSD)にオフロードすれば、単一の24GB GPUで動作します。約256GBのRAMがあれば、約10トークン/sを期待できます。フルのKimi K2.5モデルは630GBで、通常は少なくとも4台のH200 GPUを必要とします。

モデルが収まれば、B200を使用した場合に>40トークン/sが得られます。

モデルをほぼ フル精度で実行するには、4ビットまたは5ビットの量子化を使用できます。安全のためにそれ以上のビットを使っても構いません。

高い性能を得るには、10トークン/s以上を目指すなら統一メモリ(またはRAM+VRAMの合計)で>240GBを目標にしてください。これを下回ると動作はしますが速度は低下します(llama.cppはmmap/ディスクオフロードで動作可能)し、約10トークン/sから<2トークン/sに落ちる可能性があります。

UD-Q2_K_XL(375GB)を、サイズと品質のバランスが良い推奨として勧めます。経験則としては:RAM+VRAM ≈ 量子化サイズ;そうでない場合でも動作しますが、オフロードにより遅くなります。

🥝 Kimi K2.5 実行ガイド

Kimi-K2.5は用途ごとに異なるサンプリングパラメータを必要とします。

現時点では ビジョンのサポートはありません が、llama.cppが近いうちに対応することを期待しています。

circle-check

Kimi K2.5 と Kimi K2 Thinking の違い

  • 両モデルとも修正されたDeepSeek V3 MoEアーキテクチャを使用しています。

  • rope_scaling.beta_fast K2.5は32.0、K2 Thinkingは1.0を使用します。

  • MoonViTはネイティブ解像度の200Mパラメータのビジョンエンコーダーです。Kimi-VL-A3B-Instructで使用されているものと似ています。

🌙 利用ガイド:

Moonshot AIによると、これらがKimi K2.5推論の推奨設定です:

デフォルト設定(インスタントモード)
思考モード

temperature = 0.6

temperature = 1.0

top_p = 0.95

top_p = 0.95

min_p = 0.01

min_p = 0.01

  • を設定してください temperature 1.0 反復や一貫性の欠如を減らすため。

  • 推奨コンテキスト長 = 98,304(最大256Kまで)

  • 注意:異なるツールを使用すると異なる設定が必要になる場合があります

circle-info

私たちは次を設定することを推奨します、 min_pを0.01に 確率の低い起こりにくいトークンの出現を抑制するため。そして repeat penaltyを無効にするか1.0に設定してください 必要に応じて。

Kimi K2.5用チャットテンプレート

実行例 tokenizer.apply_chat_template([{"role": "user", "content": "What is 1+1?"},]) は次を返します:

✨ llama.cppでKimi K2.5を実行する

このガイドでは、最小の1ビット量子化(サイズ240GB)を実行します。量子化タイプを2ビット、3ビットなどに変更しても構いません。モデルをほぼ フル精度で実行するには、4ビットまたは5ビットの量子化を使用できます。安全のためにそれ以上のビットを使っても構いません。

  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. 直接モデルを読み込むために llama.cpp モデルを直接読み込むには、以下を実行できます:(:UD-TQ1_0)は量子化タイプです。Hugging Face経由(ポイント3)でもダウンロードできます。これは次と似ています、 ollama run に類似しています。使用してください export LLAMA_CACHE="folder" で強制的に llama.cpp 特定の場所に保存するために。

circle-check
  1. --fit on はモデルをシステムに自動適合させます。もし --fit on を使っておらず、合計で約360GBのGPUメモリを持っているなら、最大速度を得るために -ot ".ffn_.*_exps.=CPU" を削除してください。

circle-info

使用する --fit on GPUとCPUで自動適合するためのものです。これが機能しない場合は、以下を参照してください:

ぜひお試しください -ot ".ffn_.*_exps.=CPU" ですべてのMoE層をCPUにオフロードします!これにより、非MoE層を1つのGPUに収められるようになり、生成速度が向上します。GPU容量が大きい場合は正規表現をカスタマイズしてより多くの層を適合させることができます。

もしもう少しGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これはupおよびdownの投影MoE層をオフロードします。

試してみてください -ot ".ffn_(up)_exps.=CPU" もしさらに多くのGPUメモリがある場合。これはup投影MoE層のみをオフロードします。

そして最後にすべての層を次でオフロードします -ot ".ffn_.*_exps.=CPU" これは最小のVRAMを使用します。

正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は6層目以降のgate、up、downのMoE層をオフロードすることを意味します。

  1. (以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。サイズと精度のバランスを取るために私たちの2ビットダイナミック量子化UD-Q2_K_XLを使うことを推奨します。すべてのバージョンはこちら: huggingface.co/unsloth/Kimi-K2.5-GGUFarrow-up-right

circle-info

ダウンロードが90〜95%付近で止まる場合は、私たちの トラブルシューティングガイドarrow-up-right.

  1. 任意のプロンプトを実行してください。

  2. 編集 --ctx-size 16384 コンテキスト長に関する説明のために。自動コンテキスト長検出 via を使う場合はこれを省略することもできます --fit on

  1. 例として「HTMLでFlappy Birdゲームを作って」と試すと、次のようになります:

✨ llama-serverとOpenAIのcompletionライブラリでデプロイ

circle-check

llama.cppをに従ってインストールした後、次を使ってOpenAI互換サーバーを起動できます: Kimi K2.5以下のようにしてOpenAI互換サーバーを起動できます:

その後、OpenAIのPythonライブラリを使用します(インストール後) pip install openai :

そして我々は次のようになります:

そして別のllama-serverの画面では:

📊 ベンチマーク

ベンチマークの表は以下をご覧ください:

推論・知識

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

HLE-Full

30.1

34.5

30.8

37.5

25.1†

-

HLE-Full(ツールあり)

50.2

45.5

43.2

45.8

40.8†

-

AIME 2025

96.1

100

92.8

95.0

93.1

-

HMMT 2025(2月)

95.4

99.4

92.9*

97.3*

92.5

-

IMO-AnswerBench

81.8

86.3

78.5*

83.1*

78.3

-

GPQA-Diamond

87.6

92.4

87.0

91.9

82.4

-

MMLU-Pro

87.1

86.7*

89.3*

90.1

85.0

-

画像・動画

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

MMMU-Pro

78.5

79.5*

74.0

81.0

-

69.3

CharXiv(RQ)

77.5

82.1

67.2*

81.4

-

66.1

MathVision

84.2

83.0

77.1*

86.1*

-

74.6

MathVista(mini)

90.1

82.8*

80.2*

89.8*

-

85.8

ZeroBench

9

9*

3*

8*

-

4*

ZeroBench(ツールあり)

11

7*

9*

12*

-

3*

OCRBench

92.3

80.7*

86.5*

90.3*

-

87.5

OmniDocBench 1.5

88.8

85.7

87.7*

88.5

-

82.0*

InfoVQA(検証)

92.6

84*

76.9*

57.2*

-

89.5

SimpleVQA

71.2

55.8*

69.7*

69.7*

-

56.8*

WorldVQA

46.3

28.0

36.8

47.4

-

23.5

VideoMMMU

86.6

85.9

84.4*

87.6

-

80.0

MMVU

80.4

80.8*

77.3

77.5

-

71.1

MotionBench

70.4

64.8

60.3

70.3

-

-

VideoMME

87.4

86.0*

-

88.4*

-

79.0

LongVideoBench

79.8

76.5*

67.2*

77.7*

-

65.6*

LVBench

75.9

-

-

73.5*

-

63.6

コーディング

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

SWE-Bench Verified

76.8

80.0

80.9

76.2

73.1

-

SWE-Bench Pro

50.7

55.6

55.4*

-

-

-

SWE-Bench 多言語版

73.0

72.0

77.5

65.0

70.2

-

Terminal Bench 2.0

50.8

54.0

59.3

54.2

46.4

-

PaperBench

63.5

63.7*

72.9*

-

47.1

-

CyberGym

41.3

-

50.6

39.9*

17.3*

-

SciCode

48.7

52.1

49.5

56.1

38.9

-

OJBench(cpp)

57.4

-

54.6*

68.5*

54.7*

-

LiveCodeBench(v6)

85.0

-

82.2*

87.4*

83.3

-

長文コンテキスト

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

Longbench v2

61.0

54.5*

64.4*

68.2*

59.8*

-

AA-LCR

70.0

72.3*

71.3*

65.3*

64.3*

-

エージェンティック検索

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

BrowseComp

60.6

65.8

37.0

37.8

51.4

-

BrowseComp(コンテキスト管理あり)

74.9

65.8

57.8

59.2

67.6

-

BrowseComp(エージェントスウォーム)

78.4

-

-

-

-

-

WideSearch(item-f1)

72.7

-

76.2*

57.0

32.5*

-

WideSearch(item-f1 エージェントスウォーム)

79.0

-

-

-

-

-

DeepSearchQA

77.1

71.3*

76.1*

63.2*

60.9*

-

FinSearchCompT2&T3

67.8

-

66.2*

49.9

59.1*

-

Seal-0

57.4

45.0

47.7*

45.5*

49.5*

-

注記

  • * = 著者によって再評価されたスコア(以前は公開されていません)。

  • = DeepSeek V3.2のスコアは、そのテキストのみのサブセットに対応します(脚注に記載)。

  • - = 評価されていない / 利用不可。

最終更新

役に立ちましたか?