For the complete documentation index, see llms.txt. This page is also available as Markdown.

🥝Kimi K2.5: ローカル実行ガイド

Kimi-K2.5を自分のローカルデバイスで実行するガイド!

Kimi-K2.5 は Moonshot の新しいモデルで、視覚、コーディング、エージェント、チャットの各タスクで SOTA 性能を達成します。1T パラメータのハイブリッド推論モデルは 600GB のディスク容量を必要としますが、量子化版は Unsloth Dynamic 1.8-bit これを 240GB(-60% のサイズ)に削減します: Kimi-K2.5-GGUF

すべてのアップロードは Unsloth Dynamic 2.0 SOTA の Aider および 5-shot MMLU の性能向け。Dynamic 1–2 bit GGUF が以下でどのような性能を示すかご覧ください コーディングベンチマーク.

⚙️ 推奨要件

必要なのは >240GB のディスク容量 1-bit 量子化を実行するためです!

最適な性能を得るには、利用可能な総メモリ(VRAM + システム RAM)が、ダウンロードする量子化済みモデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cpp は SSD/HDD オフローディング経由で実行できますが、推論は遅くなります。

1.8-bit(UD-TQ1_0)量子化は、すべての MoE 層をシステム RAM(または高速 SSD)にオフロードすれば、単一の 24GB GPU で動作します。RAM が約 256GB あれば、約 10 トークン/秒が見込めます。Kimi K2.5 のフルモデルは 630GB で、通常は少なくとも 4× H200 GPU が必要です。

モデルが収まれば、B200 を使うと >40 トークン/秒が得られます。

モデルをほぼ フル精度で動かすには、4-bit か 5-bit の量子化を使えます。安全を見て、より高い量子化を使っても構いません。

高い性能を得るには、10+ トークン/秒に到達するために >240GB の共有メモリ(または RAM+VRAM の合計)を目指してください。それ未満でも動作はしますが、速度は低下します(llama.cpp は mmap/ディスクオフロード経由でも実行可能です)。約 10 トークン/秒から <2 トークン/秒まで落ちることがあります。

サイズと品質のバランスが良いものとして UD-Q2_K_XL(375GB)を推奨します。目安は、RAM+VRAM ≈ 量子化サイズ です。それ以外でも動作しますが、オフロードのために遅くなります。

🥝 Kimi K2.5 実行ガイド

Kimi-K2.5 は、用途ごとに異なるサンプリングパラメータが必要です。

現在は 視覚サポートがありません が、llama.cpp がまもなく対応してくれることを期待しています。

🌙 使用ガイド:

Moonshot AI によると、Kimi K2.5 の推論に推奨される設定は次のとおりです:

デフォルト設定(Instant モード)
Thinking モード

temperature = 0.6

temperature = 1.0

top_p = 0.95

top_p = 0.95

min_p = 0.01

min_p = 0.01

  • 次を設定してください temperature 1.0 重複や不整合を減らすため。

  • 推奨コンテキスト長 = 98,304(最大 256K)

  • 注: 使用するツールによって設定が異なる場合があります

次の設定を推奨します min_p を 0.01 に 低確率のありえないトークンの出現を抑制するため。さらに repeat penalty を無効化するか、1.0 に設定 してください。

Kimi K2.5 のチャットテンプレート

実行すると tokenizer.apply_chat_template([{"role": "user", "content": "1+1 は何ですか?"},]) 次のようになります:

🦥 Unsloth Studio で Kimi-K2.5 を実行

Kimi-K2.5 は Unsloth Studioで実行およびファインチューニングできます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio を使えば、モデルをローカルで実行できます MacOS、Windows、Linux および:

1

Unslothをインストールする

ターミナルで実行:

MacOS、Linux、WSL:

Windows PowerShell:

2

Unsloth を起動

MacOS、Linux、WSL、Windows:

その後、 http://localhost:8888 をブラウザで開いてください。

3

Kimi-K2.5 を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップして、直接チャットへ進めます。

その後、 Studio Chat タブで Kimi-K2.5 を検索バーで検索し、必要なモデルと量子化版をダウンロードしてください。モデルを実行するのに十分な計算資源があることを確認してください。

4

Kimi-K2.5 を実行

Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細は、 Unsloth Studio 推論ガイド.

✨ llama.cpp で Kimi K2.5 を実行

このガイドでは、最小の 1-bit 量子化版(サイズ 240GB)を実行します。量子化タイプは 2-bit、3-bit などに自由に変更できます。モデルをほぼ フル精度で動かすには、4-bit か 5-bit の量子化を使えます。安全を見て、より高い量子化を使っても構いません。

  1. 最新の llama.cppGitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスの場合、次を設定して -DGGML_CUDA=OFF その後は通常どおり続けてください - Metal サポートは既定で有効です。

  1. もし llama.cpp モデルを直接読み込むには、以下のようにできます。(:UD-TQ1_0) は量子化タイプです。Hugging Face(ポイント3)経由でもダウンロードできます。これは次と同様です: ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp 特定の場所に保存するために。

  1. --fit on を使えば、モデルはシステムに自動フィットします。 --fit on もし使用せず、GPU の合計メモリが約 360GB ある場合は、 -ot ".ffn_.*_exps.=CPU" を削除して最大速度を得てください。

使用 --fit on GPU と CPU への自動フィット用です。うまくいかない場合は、下記を参照してください:

ぜひ試してみてください -ot ".ffn_.*_exps.=CPU" すべての MoE レイヤーを CPU にオフロードします!これにより、非 MoE レイヤーを 1 枚の GPU に収められるようになり、生成速度が向上します。GPU 容量がさらにある場合は、正規表現を調整してより多くのレイヤーを収めることができます。

GPU メモリがもう少し多い場合は、試してみてください -ot ".ffn_(up|down)_exps.=CPU" これにより、アップ投影とダウン投影の MoE レイヤーがオフロードされます。

試してみてください -ot ".ffn_(up)_exps.=CPU" GPU メモリがさらに多い場合は、これを使ってください。これにより、アップ投影の MoE レイヤーのみがオフロードされます。

そして最後に、 -ot ".ffn_.*_exps.=CPU" を使ってすべてのレイヤーをオフロードします。

これは最も少ない VRAM を使用します。 正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"

  1. モデルのダウンロード( pip install huggingface_hub hf_transfer 最大速度を得てください! huggingface.co/unsloth/Kimi-K2.5-GGUF ダウンロードが止まる場合は、 Hugging Face Hub、XETデバッグ

ダウンロードが 90〜95% あたりで止まる場合は、 トラブルシューティングガイド.

  1. 任意のプロンプトを実行。

  2. 編集 --ctx-size 16384 をご覧ください。コンテキスト長のためです。 --fit on

  1. 例として、"HTML で Flappy Bird ゲームを作成して" と入力すると、次のようになります:

✨ llama-server と OpenAI の completion ライブラリでデプロイ

に従って llama.cpp をインストールした後、以下を使って OpenAI 互換サーバーを起動できます: Kimi K2.5、以下を使って OpenAI 互換サーバーを起動できます:

その後、OpenAI の Python ライブラリを使います pip install openai :

そして、次の結果になります:

そして、別の llama-server 画面では:

📊 ベンチマーク

以下で、ベンチマークを表形式で確認できます:

推論 & 知識

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

HLE-フル

30.1

34.5

30.8

37.5

25.1†

-

HLE-フル(ツール使用)

50.2

45.5

43.2

45.8

40.8†

-

AIME 2025

96.1

100

92.8

95.0

93.1

-

HMMT 2025(2月)

95.4

99.4

92.9*

97.3*

92.5

-

IMO-AnswerBench

81.8

86.3

78.5*

83.1*

78.3

-

GPQA-Diamond

87.6

92.4

87.0

91.9

82.4

-

MMLU-Pro

87.1

86.7*

89.3*

90.1

85.0

-

画像 & 動画

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

MMMU-Pro

78.5

79.5*

74.0

81.0

-

69.3

CharXiv(RQ)

77.5

82.1

67.2*

81.4

-

66.1

MathVision

84.2

83.0

77.1*

86.1*

-

74.6

MathVista(mini)

90.1

82.8*

80.2*

89.8*

-

85.8

ZeroBench

9

9*

3*

8*

-

4*

ZeroBench(ツール使用)

11

7*

9*

12*

-

3*

OCRBench

92.3

80.7*

86.5*

90.3*

-

87.5

OmniDocBench 1.5

88.8

85.7

87.7*

88.5

-

82.0*

InfoVQA(val)

92.6

84*

76.9*

57.2*

-

89.5

SimpleVQA

71.2

55.8*

69.7*

69.7*

-

56.8*

WorldVQA

46.3

28.0

36.8

47.4

-

23.5

VideoMMMU

86.6

85.9

84.4*

87.6

-

80.0

MMVU

80.4

80.8*

77.3

77.5

-

71.1

MotionBench

70.4

64.8

60.3

70.3

-

-

VideoMME

87.4

86.0*

-

88.4*

-

79.0

LongVideoBench

79.8

76.5*

67.2*

77.7*

-

65.6*

LVBench

75.9

-

-

73.5*

-

63.6

コーディング

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

SWE-Bench Verified

76.8

80.0

80.9

76.2

73.1

-

SWE-Bench Pro

50.7

55.6

55.4*

-

-

-

SWE-Bench Multilingual

73.0

72.0

77.5

65.0

70.2

-

Terminal Bench 2.0

50.8

54.0

59.3

54.2

46.4

-

PaperBench

63.5

63.7*

72.9*

-

47.1

-

CyberGym

41.3

-

50.6

39.9*

17.3*

-

SciCode

48.7

52.1

49.5

56.1

38.9

-

OJBench(cpp)

57.4

-

54.6*

68.5*

54.7*

-

LiveCodeBench(v6)

85.0

-

82.2*

87.4*

83.3

-

長文コンテキスト

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

Longbench v2

61.0

54.5*

64.4*

68.2*

59.8*

-

AA-LCR

70.0

72.3*

71.3*

65.3*

64.3*

-

エージェント検索

ベンチマーク
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

BrowseComp

60.6

65.8

37.0

37.8

51.4

-

BrowseComp(ctx 管理あり)

74.9

65.8

57.8

59.2

67.6

-

BrowseComp(Agent Swarm)

78.4

-

-

-

-

-

WideSearch(item-f1)

72.7

-

76.2*

57.0

32.5*

-

WideSearch(item-f1 Agent Swarm)

79.0

-

-

-

-

-

DeepSearchQA

77.1

71.3*

76.1*

63.2*

60.9*

-

FinSearchCompT2&T3

67.8

-

66.2*

49.9

59.1*

-

Seal-0

57.4

45.0

47.7*

45.5*

49.5*

-

注記

  • * = 著者によって再評価されたスコア(以前は公開されていなかったもの)。

  • = DeepSeek V3.2 のスコアは、脚注に記載のとおり、テキストのみのサブセットに対応します。

  • - = 未評価 / 利用不可。

最終更新

役に立ちましたか?