🥝Kimi K2.5：如何在本地运行指南

在您自己的本地设备上运行 Kimi-K2.5 的指南！

Kimi-K2.5 是 Moonshot 推出的新多模态模型，在视觉、推理、编码、代理式和聊天任务上达到了 SOTA 性能。该 1T 参数的混合推理模型需要 1.09TB 的磁盘空间，而量化后的 Unsloth 动态 1.8 位 版本将其减少到仅 230GB（-80% 大小）: Kimi-K2.5-GGUF

所有上传均使用 Unsloth 动态 2.0 以在 Aider 和 5-shot MMLU 上实现 SOTA 性能。查看我们的动态 1–2 位 GGUF 在编码基准.

目前仅上传了 UD-Q2_K_XL、UD-Q3_K_XL、UD-Q4_K_XL、Q8_0 量化（不支持视觉），你需要等待其余版本上传并进行 imatrix 校准。

⚙️ 推荐要求

你需要 247GB 的磁盘空间 来运行 1bit 量化！

唯一的要求是 磁盘空间 + 内存 + 显存 ≥ 247GB。这意味着你不必拥有那么多的 RAM 或显存（GPU）来运行模型，但运行速度会慢很多。

1.8 位（UD-TQ1_0）量化如果将所有 MoE 层卸载到系统内存（或快速 SSD），可以在单个 24GB GPU 上运行。使用约 ~256GB 内存，预计约 ~1–2 标记/秒。

相比之下，完整的 Kimi K2.5 模型为 630GB，通常至少需要 4× H200 GPU。

为了获得较强性能，目标为约 247GB 的统一内存（或 RAM+VRAM 之和）以达到 5+ 标记/秒。如果低于此，仍能工作但速度会下降（llama.cpp 仍可通过 mmap/磁盘卸载运行），可能会从 ~5–10 标记/秒降到 <2 标记/秒。

我们推荐 UD-Q2_K_XL（360GB）作为良好的体积/质量平衡。最好的经验法则：RAM+VRAM ≈ 量化文件大小；否则仍然可以运行，只是由于卸载而更慢。

🥝 运行 Kimi K2.5 指南

Kimi-K2.5 对不同用例需要不同的采样参数。

要以全精度运行模型，你只需使用 4 位或 5 位的 Dynamic GGUF（例如 UD_Q4_K_XL），因为该模型最初以 INT4 格式发布。

你可以选择更高位的量化以防小幅量化差异，但在大多数情况下这并不必要。

🔎Kimi K2.5 与 Kimi K2 Thinking 的差异

两个模型都使用修改过的 DeepSeek V3 MoE 架构。
rope_scaling.beta_fast K2.5 使用 32.0，而 K2 Thinking 使用 1.0。
MoonViT 是原生分辨率的 2 亿参数视觉编码器。它类似于用于 Kimi-VL-A3B-Instruct 的那个。

🌙 使用指南：

根据 Moonshot AI，这些是 Kimi K2.5 推理的推荐设置：

默认设置（即时模式）

思考模式

temperature = 0.6

temperature = 1.0

top_p = 0.95

设置 temperature 1.0 以减少重复和不连贯。
建议上下文长度 = 98,304（最高可达 256K）
注意：使用不同工具可能需要不同设置

我们建议设置 min_p 为 0.01 以压制低概率的 unlikely token 的出现。并且 如果需要，禁用或将重复惩罚设置为 = 1.0 。

🐱Kimi K2.5 的聊天模板

运行 tokenizer.apply_chat_template([{"role": "user", "content": "What is 1+1?"},]) 将得到：

<|im_system|>system<|im_middle|>You are Kimi, an AI assistant created by Moonshot AI.<|im_end|><|im_user|>user<|im_middle|>What is 1+1?<|im_end|><|im_assistant|>assistant<|im_middle|><think>

✨ 在 llama.cpp 中运行 Kimi K2.5

获取最新的 llama.cpp 在 GitHub（此处）。你也可以按照下面的构建说明。若没有 GPU 或只想使用 CPU 推理，将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

如果你想直接使用 llama.cpp 来加载模型，你可以如下操作：(:UD-TQ1_0) 是量化类型。你也可以通过 Hugging Face（第 3 点）下载。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 将文件保存到特定位置。

LLAMA_SET_ROWS=1 使 llama.cpp 略微更快！使用它！ --fit on 会在所有 GPU 和 CPU 上自动优化地适配模型。

export LLAMA_CACHE="unsloth/Kimi-K2.5-GGUF"
LLAMA_SET_ROWS=1 ./llama.cpp/llama-cli \
    -hf unsloth/Kimi-K2.5-GGUF:UD-Q2_K_XL \
    --temp 1.0 \
    --min-p 0.01 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --seed 3407 \
    --fit on \
    --jinja

以上将使用大约 8GB 的 GPU 显存。如果不使用 --fit on 且你有约 360GB 的合并 GPU 内存，请移除 -ot ".ffn_.*_exps.=CPU" 以获得最大速度。

使用 --fit on 进行 GPU 和 CPU 的自动适配。如果这不起作用，请见下文：

请尝试使用 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU！这实际上允许你将所有非 MoE 层放到 1 块 GPU 上，从而提高生成速度。如果你有更多 GPU 容量，可以自定义正则表达式以适配更多层。

如果你有更多一些 GPU 内存，试试 -ot ".ffn_(up|down)_exps.=CPU" 这会将上/下投影的 MoE 层卸载。

尝试 -ot ".ffn_(up)_exps.=CPU" 如果你有更多 GPU 内存。这只会卸载上投影的 MoE 层。

最后通过卸载所有层来实现 -ot ".ffn_.*_exps.=CPU" 这使用最少的显存。

你也可以自定义正则，例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层开始将 gate、up 和 down 的 MoE 层卸载到 CPU。

通过以下方式下载模型（在安装 pip install huggingface_hub hf_transfer ）后。我们建议使用我们的 2 位动态量化 UD-Q2_K_XL 以平衡体积和准确性。所有版本在： huggingface.co/unsloth/Kimi-K2.5-GGUF

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 有时会被速率限制，因此将其设置为 0 以禁用
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Kimi-K2.5-GGUF",
    local_dir = "unsloth/Kimi-K2.5-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"], # 使用 "*UD-TQ1_0*" 可选择 Dynamic 1bit
)

如果你发现下载在 90% 到 95% 左右卡住，请参阅我们的疑难解答指南.

运行任意提示。
编辑 --ctx-size 16384 以设置上下文长度。你也可以省略此项以通过自动上下文长度发现来使用 --fit on

LLAMA_SET_ROWS=1 ./llama.cpp/llama-cli \
    --model unsloth/Kimi-K2.5-GGUF/UD-Q2_K_XL/Kimi-K2.5-Q2_K_XL-00001-of-00008.gguf \
    --temp 1.0 \
    --min_p 0.01 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --seed 3407 \
    --fit on \
    --jinja

✨ 使用 llama-server 和 OpenAI 的 completion 库进行部署

使用 --kv-unified 可以在 llama.cpp 中加快推理服务速度！参见 https://www.reddit.com/r/LocalLLaMA/comments/1qnwa33/glm_47_flash_huge_performance_improvement_with_kvu/

按照 Kimi K2.5安装 llama.cpp 后，你可以使用以下命令启动兼容 OpenAI 的服务器：

LLAMA_SET_ROWS=1 ./llama.cpp/llama-server \
    --model Kimi-K2.5-GGUF/Q8_0/Kimi-K2.5-Q8_0-00001-of-00023.gguf \
    --special \
    --alias "unsloth/Kimi-K2.5" \
    --min_p 0.01 \
    --ctx-size 16384 \
    --port 8001 \
    --fit on \
    --jinja \
    --kv-unified

然后在 pip install openai :

之后使用 OpenAI 的 Python 库，
from openai import OpenAI
import json
    openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
)
api_key = "sk-no-key-required",
    completion = openai_client.chat.completions.create(
    model = "unsloth/Kimi-K2.5",
)
messages = [{"role": "user", "content": "What is 1+1?"},],

print(completion.choices[0].message.content)

然后我们得到：

在另一个 llama-server 窗口中：

📊 基准测试

推理与知识

基准

Kimi K2.5

GPT-5.2

Claude 4.5 Opus

Gemini 3 Pro

DeepSeek V3.2

Qwen3-VL-235B-A22B-Thinking

30.1

34.5

30.8

37.5

HLE-Full

25.1†

50.2

45.5

43.2

45.8

HLE-Full（含工具）

40.8†

96.1

100

92.8

95.0

93.1

AIME 2025

95.4

99.4

92.9*

97.3*

92.5

HMMT 2025（2 月）

81.8

86.3

78.5*

83.1*

78.3

IMO-AnswerBench

87.6

92.4

87.0

91.9

82.4

GPQA-Diamond

87.1

86.7*

89.3*

90.1

85.0

MMLU-Pro

推理与知识

基准

Kimi K2.5

GPT-5.2

Claude 4.5 Opus

Gemini 3 Pro

DeepSeek V3.2

图像与视频

78.5

79.5*

74.0

81.0

69.3

MMMU-Pro

77.5

82.1

67.2*

81.4

66.1

CharXiv（RQ）

84.2

83.0

77.1*

86.1*

74.6

MathVision

90.1

82.8*

80.2*

89.8*

85.8

MathVista（mini）

ZeroBench

12*

ZeroBench（含工具）

92.3

80.7*

86.5*

90.3*

87.5

OCRBench

88.8

85.7

87.7*

88.5

82.0*

OmniDocBench 1.5

92.6

84*

76.9*

57.2*

89.5

InfoVQA（验证集）

71.2

55.8*

69.7*

56.8*

SimpleVQA

46.3

28.0

36.8

47.4

23.5

WorldVQA

86.6

85.9

84.4*

87.6

80.0

VideoMMMU

80.4

80.8*

77.3

77.5

71.1

MMVU

70.4

64.8

60.3

70.3

MotionBench

87.4

86.0*

88.4*

79.0

VideoMME

79.8

76.5*

67.2*

77.7*

65.6*

LongVideoBench

75.9

73.5*

63.6

LVBench

推理与知识

基准

Kimi K2.5

GPT-5.2

Claude 4.5 Opus

Gemini 3 Pro

DeepSeek V3.2

编码

76.8

80.0

80.9

76.2

73.1

SWE-Bench Verified

50.7

55.6

55.4*

SWE-Bench Pro

73.0

72.0

77.5

65.0

70.2

SWE-Bench 多语言

50.8

54.0

59.3

54.2

46.4

Terminal Bench 2.0

63.5

63.7*

72.9*

47.1

PaperBench

41.3

50.6

39.9*

17.3*

CyberGym

48.7

52.1

49.5

56.1

38.9

SciCode

57.4

54.6*

68.5*

54.7*

OJBench（cpp）

85.0

82.2*

87.4*

83.3

LiveCodeBench（v6）

推理与知识

基准

Kimi K2.5

GPT-5.2

Claude 4.5 Opus

Gemini 3 Pro

DeepSeek V3.2

长上下文

61.0

54.5*

64.4*

68.2*

59.8*

Longbench v2

70.0

72.3*

71.3*

65.3*

64.3*

AA-LCR

推理与知识

基准

Kimi K2.5

GPT-5.2

Claude 4.5 Opus

Gemini 3 Pro

DeepSeek V3.2

智能代理检索

60.6

65.8

37.0

37.8

51.4

BrowseComp

74.9

65.8

57.8

59.2

67.6

BrowseComp（含上下文管理）

78.4

BrowseComp（Agent Swarm）

72.7

76.2*

57.0

32.5*

WideSearch（item-f1）

79.0

WideSearch（item-f1 Agent Swarm）

77.1

71.3*

76.1*

63.2*

60.9*

DeepSearchQA

67.8

66.2*

49.9

59.1*

FinSearchCompT2&T3

57.4

45.0

47.7*

45.5*

49.5*

Seal-0

* 注释
= 分数由作者重新评估（此前未公开）。 †
- = DeepSeek V3.2 的得分对应其仅文本子集（如脚注所述）。 = 未评估 / 不可用。

上一页DeepSeek-OCR 2 下一页GLM-4.7

最后更新于2天前

这有帮助吗？

hashtag⚙️ 推荐要求

hashtag🥝 运行 Kimi K2.5 指南

hashtag🔎Kimi K2.5 与 Kimi K2 Thinking 的差异

hashtag🌙 使用指南：

hashtag🐱Kimi K2.5 的聊天模板

hashtag✨ 在 llama.cpp 中运行 Kimi K2.5

hashtag✨ 使用 llama-server 和 OpenAI 的 completion 库进行部署

hashtag在另一个 llama-server 窗口中：

hashtag📊 基准测试

hashtagMMLU-Pro

hashtagLVBench

hashtagLiveCodeBench（v6）

hashtagAA-LCR

hashtagSeal-0

⚙️ 推荐要求

🥝 运行 Kimi K2.5 指南

🔎Kimi K2.5 与 Kimi K2 Thinking 的差异

🌙 使用指南：

🐱Kimi K2.5 的聊天模板

✨ 在 llama.cpp 中运行 Kimi K2.5

✨ 使用 llama-server 和 OpenAI 的 completion 库进行部署

在另一个 llama-server 窗口中：

📊 基准测试

MMLU-Pro

LVBench

LiveCodeBench（v6）

AA-LCR

Seal-0