🥝Kimi K2.5:如何在本地运行指南

在您自己的本地设备上运行 Kimi-K2.5 的指南!

Kimi-K2.5 是 Moonshot 推出的新多模态模型,在视觉、推理、编码、代理式和聊天任务上达到了 SOTA 性能。该 1T 参数的混合推理模型需要 1.09TB 的磁盘空间,而量化后的 Unsloth 动态 1.8 位 版本将其减少到仅 230GB(-80% 大小): Kimi-K2.5-GGUFarrow-up-right

所有上传均使用 Unsloth 动态 2.0 以在 Aider 和 5-shot MMLU 上实现 SOTA 性能。查看我们的动态 1–2 位 GGUF 在 编码基准.

circle-exclamation

⚙️ 推荐要求

circle-info

你需要 247GB 的磁盘空间 来运行 1bit 量化!

唯一的要求是 磁盘空间 + 内存 + 显存 ≥ 247GB。这意味着你不必拥有那么多的 RAM 或显存(GPU)来运行模型,但运行速度会慢很多。

1.8 位(UD-TQ1_0)量化如果将所有 MoE 层卸载到系统内存(或快速 SSD),可以在单个 24GB GPU 上运行。使用约 ~256GB 内存,预计约 ~1–2 标记/秒。

相比之下,完整的 Kimi K2.5 模型为 630GB,通常至少需要 4× H200 GPU。

为了获得较强性能,目标为约 247GB 的统一内存(或 RAM+VRAM 之和)以达到 5+ 标记/秒。如果低于此,仍能工作但速度会下降(llama.cpp 仍可通过 mmap/磁盘卸载运行),可能会从 ~5–10 标记/秒降到 <2 标记/秒。

我们推荐 UD-Q2_K_XL(360GB)作为良好的体积/质量平衡。最好的经验法则:RAM+VRAM ≈ 量化文件大小;否则仍然可以运行,只是由于卸载而更慢。

🥝 运行 Kimi K2.5 指南

Kimi-K2.5 对不同用例需要不同的采样参数。

circle-check

🔎Kimi K2.5 与 Kimi K2 Thinking 的差异

  • 两个模型都使用修改过的 DeepSeek V3 MoE 架构。

  • rope_scaling.beta_fast K2.5 使用 32.0,而 K2 Thinking 使用 1.0。

  • MoonViT 是原生分辨率的 2 亿参数视觉编码器。它类似于用于 Kimi-VL-A3B-Instruct 的那个。

🌙 使用指南:

根据 Moonshot AI,这些是 Kimi K2.5 推理的推荐设置:

默认设置(即时模式)
思考模式

temperature = 0.6

temperature = 1.0

top_p = 0.95

top_p = 0.95

  • 设置 temperature 1.0 以减少重复和不连贯。

  • 建议上下文长度 = 98,304(最高可达 256K)

  • 注意:使用不同工具可能需要不同设置

circle-info

我们建议设置 min_p 为 0.01 以压制低概率的 unlikely token 的出现。并且 如果需要,禁用或将重复惩罚设置为 = 1.0

🐱Kimi K2.5 的聊天模板

运行 tokenizer.apply_chat_template([{"role": "user", "content": "What is 1+1?"},]) 将得到:

✨ 在 llama.cpp 中运行 Kimi K2.5

  1. 获取最新的 llama.cppGitHub(此处)arrow-up-right。你也可以按照下面的构建说明。若没有 GPU 或只想使用 CPU 推理,将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF

  1. 如果你想直接使用 llama.cpp 来加载模型,你可以如下操作:(:UD-TQ1_0) 是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 将文件保存到特定位置。

circle-check
  1. 以上将使用大约 8GB 的 GPU 显存。如果不使用 --fit on 且你有约 360GB 的合并 GPU 内存,请移除 -ot ".ffn_.*_exps.=CPU" 以获得最大速度。

circle-info

使用 --fit on 进行 GPU 和 CPU 的自动适配。如果这不起作用,请见下文:

请尝试使用 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许你将所有非 MoE 层放到 1 块 GPU 上,从而提高生成速度。如果你有更多 GPU 容量,可以自定义正则表达式以适配更多层。

如果你有更多一些 GPU 内存,试试 -ot ".ffn_(up|down)_exps.=CPU" 这会将上/下投影的 MoE 层卸载。

尝试 -ot ".ffn_(up)_exps.=CPU" 如果你有更多 GPU 内存。这只会卸载上投影的 MoE 层。

最后通过卸载所有层来实现 -ot ".ffn_.*_exps.=CPU" 这使用最少的显存。

你也可以自定义正则,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层开始将 gate、up 和 down 的 MoE 层卸载到 CPU。

  1. 通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )后。我们建议使用我们的 2 位动态量化 UD-Q2_K_XL 以平衡体积和准确性。所有版本在: huggingface.co/unsloth/Kimi-K2.5-GGUFarrow-up-right

circle-info

如果你发现下载在 90% 到 95% 左右卡住,请参阅我们的 疑难解答指南arrow-up-right.

  1. 运行任意提示。

  2. 编辑 --ctx-size 16384 以设置上下文长度。你也可以省略此项以通过自动上下文长度发现来使用 --fit on

✨ 使用 llama-server 和 OpenAI 的 completion 库进行部署

circle-check

按照 Kimi K2.5安装 llama.cpp 后,你可以使用以下命令启动兼容 OpenAI 的服务器:

然后在 pip install openai :

print(completion.choices[0].message.content)

然后我们得到:

在另一个 llama-server 窗口中:

📊 基准测试

推理与知识
基准
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2

Qwen3-VL-235B-A22B-Thinking

30.1

34.5

30.8

37.5

HLE-Full

-

25.1†

50.2

45.5

43.2

45.8

HLE-Full(含工具)

-

40.8†

96.1

100

92.8

95.0

93.1

-

AIME 2025

95.4

99.4

92.9*

97.3*

92.5

-

HMMT 2025(2 月)

81.8

86.3

78.5*

83.1*

78.3

-

IMO-AnswerBench

87.6

92.4

87.0

91.9

82.4

-

GPQA-Diamond

87.1

86.7*

89.3*

90.1

85.0

-

MMLU-Pro

推理与知识
基准
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2

图像与视频

78.5

79.5*

74.0

81.0

-

69.3

MMMU-Pro

77.5

82.1

67.2*

81.4

-

66.1

CharXiv(RQ)

84.2

83.0

77.1*

86.1*

-

74.6

MathVision

90.1

82.8*

80.2*

89.8*

-

85.8

MathVista(mini)

9

9*

3*

8*

-

4*

ZeroBench

11

7*

9*

12*

-

3*

ZeroBench(含工具)

92.3

80.7*

86.5*

90.3*

-

87.5

OCRBench

88.8

85.7

87.7*

88.5

-

82.0*

OmniDocBench 1.5

92.6

84*

76.9*

57.2*

-

89.5

InfoVQA(验证集)

71.2

55.8*

69.7*

69.7*

-

56.8*

SimpleVQA

46.3

28.0

36.8

47.4

-

23.5

WorldVQA

86.6

85.9

84.4*

87.6

-

80.0

VideoMMMU

80.4

80.8*

77.3

77.5

-

71.1

MMVU

70.4

64.8

60.3

70.3

-

-

MotionBench

87.4

86.0*

-

88.4*

-

79.0

VideoMME

79.8

76.5*

67.2*

77.7*

-

65.6*

LongVideoBench

75.9

-

-

73.5*

-

63.6

LVBench

推理与知识
基准
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2

编码

76.8

80.0

80.9

76.2

73.1

-

SWE-Bench Verified

50.7

55.6

55.4*

-

-

-

SWE-Bench Pro

73.0

72.0

77.5

65.0

70.2

-

SWE-Bench 多语言

50.8

54.0

59.3

54.2

46.4

-

Terminal Bench 2.0

63.5

63.7*

72.9*

-

47.1

-

PaperBench

41.3

-

50.6

39.9*

17.3*

-

CyberGym

48.7

52.1

49.5

56.1

38.9

-

SciCode

57.4

-

54.6*

68.5*

54.7*

-

OJBench(cpp)

85.0

-

82.2*

87.4*

83.3

-

LiveCodeBench(v6)

推理与知识
基准
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2

长上下文

61.0

54.5*

64.4*

68.2*

59.8*

-

Longbench v2

70.0

72.3*

71.3*

65.3*

64.3*

-

AA-LCR

推理与知识
基准
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2

智能代理检索

60.6

65.8

37.0

37.8

51.4

-

BrowseComp

74.9

65.8

57.8

59.2

67.6

-

BrowseComp(含上下文管理)

78.4

-

-

-

-

-

BrowseComp(Agent Swarm)

72.7

-

76.2*

57.0

32.5*

-

WideSearch(item-f1)

79.0

-

-

-

-

-

WideSearch(item-f1 Agent Swarm)

77.1

71.3*

76.1*

63.2*

60.9*

-

DeepSearchQA

67.8

-

66.2*

49.9

59.1*

-

FinSearchCompT2&T3

57.4

45.0

47.7*

45.5*

49.5*

-

Seal-0

  • * 注释

  • = 分数由作者重新评估(此前未公开)。

  • - = DeepSeek V3.2 的得分对应其仅文本子集(如脚注所述)。 = 未评估 / 不可用。

最后更新于

这有帮助吗?