🥝Kimi K2.5:如何在本地运行指南
在您自己的本地设备上运行 Kimi-K2.5 的指南!
Kimi-K2.5 是 Moonshot 推出的新多模态模型,在视觉、推理、编码、代理式和聊天任务上达到了 SOTA 性能。该 1T 参数的混合推理模型需要 1.09TB 的磁盘空间,而量化后的 Unsloth 动态 1.8 位 版本将其减少到仅 230GB(-80% 大小): Kimi-K2.5-GGUF
所有上传均使用 Unsloth 动态 2.0 以在 Aider 和 5-shot MMLU 上实现 SOTA 性能。查看我们的动态 1–2 位 GGUF 在 编码基准.
目前仅上传了 UD-Q2_K_XL、UD-Q3_K_XL、UD-Q4_K_XL、Q8_0 量化(不支持视觉),你需要等待其余版本上传并进行 imatrix 校准。
⚙️ 推荐要求
你需要 247GB 的磁盘空间 来运行 1bit 量化!
唯一的要求是 磁盘空间 + 内存 + 显存 ≥ 247GB。这意味着你不必拥有那么多的 RAM 或显存(GPU)来运行模型,但运行速度会慢很多。
1.8 位(UD-TQ1_0)量化如果将所有 MoE 层卸载到系统内存(或快速 SSD),可以在单个 24GB GPU 上运行。使用约 ~256GB 内存,预计约 ~1–2 标记/秒。
相比之下,完整的 Kimi K2.5 模型为 630GB,通常至少需要 4× H200 GPU。
为了获得较强性能,目标为约 247GB 的统一内存(或 RAM+VRAM 之和)以达到 5+ 标记/秒。如果低于此,仍能工作但速度会下降(llama.cpp 仍可通过 mmap/磁盘卸载运行),可能会从 ~5–10 标记/秒降到 <2 标记/秒。
我们推荐 UD-Q2_K_XL(360GB)作为良好的体积/质量平衡。最好的经验法则:RAM+VRAM ≈ 量化文件大小;否则仍然可以运行,只是由于卸载而更慢。
🥝 运行 Kimi K2.5 指南
Kimi-K2.5 对不同用例需要不同的采样参数。
要以全精度运行模型,你只需使用 4 位或 5 位的 Dynamic GGUF(例如 UD_Q4_K_XL),因为该模型最初以 INT4 格式发布。
你可以选择更高位的量化以防小幅量化差异,但在大多数情况下这并不必要。
🔎Kimi K2.5 与 Kimi K2 Thinking 的差异
两个模型都使用修改过的 DeepSeek V3 MoE 架构。
rope_scaling.beta_fastK2.5 使用 32.0,而 K2 Thinking 使用 1.0。MoonViT 是原生分辨率的 2 亿参数视觉编码器。它类似于用于 Kimi-VL-A3B-Instruct 的那个。
🌙 使用指南:
根据 Moonshot AI,这些是 Kimi K2.5 推理的推荐设置:
temperature = 0.6
temperature = 1.0
top_p = 0.95
top_p = 0.95
设置 temperature 1.0 以减少重复和不连贯。
建议上下文长度 = 98,304(最高可达 256K)
注意:使用不同工具可能需要不同设置
我们建议设置 min_p 为 0.01 以压制低概率的 unlikely token 的出现。并且 如果需要,禁用或将重复惩罚设置为 = 1.0 。
🐱Kimi K2.5 的聊天模板
运行 tokenizer.apply_chat_template([{"role": "user", "content": "What is 1+1?"},]) 将得到:
✨ 在 llama.cpp 中运行 Kimi K2.5
获取最新的
llama.cpp在 GitHub(此处)。你也可以按照下面的构建说明。若没有 GPU 或只想使用 CPU 推理,将-DGGML_CUDA=ON改为-DGGML_CUDA=OFF。
如果你想直接使用
llama.cpp来加载模型,你可以如下操作:(:UD-TQ1_0) 是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这与ollama run类似。使用export LLAMA_CACHE="folder"来强制llama.cpp将文件保存到特定位置。
LLAMA_SET_ROWS=1 使 llama.cpp 略微更快!使用它! --fit on 会在所有 GPU 和 CPU 上自动优化地适配模型。
以上将使用大约 8GB 的 GPU 显存。如果不使用
--fit on且你有约 360GB 的合并 GPU 内存,请移除-ot ".ffn_.*_exps.=CPU"以获得最大速度。
使用 --fit on 进行 GPU 和 CPU 的自动适配。如果这不起作用,请见下文:
请尝试使用 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许你将所有非 MoE 层放到 1 块 GPU 上,从而提高生成速度。如果你有更多 GPU 容量,可以自定义正则表达式以适配更多层。
如果你有更多一些 GPU 内存,试试 -ot ".ffn_(up|down)_exps.=CPU" 这会将上/下投影的 MoE 层卸载。
尝试 -ot ".ffn_(up)_exps.=CPU" 如果你有更多 GPU 内存。这只会卸载上投影的 MoE 层。
最后通过卸载所有层来实现 -ot ".ffn_.*_exps.=CPU" 这使用最少的显存。
你也可以自定义正则,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层开始将 gate、up 和 down 的 MoE 层卸载到 CPU。
通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer)后。我们建议使用我们的 2 位动态量化 UD-Q2_K_XL 以平衡体积和准确性。所有版本在: huggingface.co/unsloth/Kimi-K2.5-GGUF
如果你发现下载在 90% 到 95% 左右卡住,请参阅我们的 疑难解答指南.
运行任意提示。
编辑
--ctx-size 16384以设置上下文长度。你也可以省略此项以通过自动上下文长度发现来使用--fit on
✨ 使用 llama-server 和 OpenAI 的 completion 库进行部署
使用 --kv-unified 可以在 llama.cpp 中加快推理服务速度!参见 https://www.reddit.com/r/LocalLLaMA/comments/1qnwa33/glm_47_flash_huge_performance_improvement_with_kvu/
按照 Kimi K2.5安装 llama.cpp 后,你可以使用以下命令启动兼容 OpenAI 的服务器:
然后在 pip install openai :
print(completion.choices[0].message.content)

然后我们得到:

在另一个 llama-server 窗口中:
📊 基准测试
Qwen3-VL-235B-A22B-Thinking
30.1
34.5
30.8
37.5
HLE-Full
-
25.1†
50.2
45.5
43.2
45.8
HLE-Full(含工具)
-
40.8†
96.1
100
92.8
95.0
93.1
-
AIME 2025
95.4
99.4
92.9*
97.3*
92.5
-
HMMT 2025(2 月)
81.8
86.3
78.5*
83.1*
78.3
-
IMO-AnswerBench
87.6
92.4
87.0
91.9
82.4
-
GPQA-Diamond
87.1
86.7*
89.3*
90.1
85.0
-
MMLU-Pro
图像与视频
78.5
79.5*
74.0
81.0
-
69.3
MMMU-Pro
77.5
82.1
67.2*
81.4
-
66.1
CharXiv(RQ)
84.2
83.0
77.1*
86.1*
-
74.6
MathVision
90.1
82.8*
80.2*
89.8*
-
85.8
MathVista(mini)
9
9*
3*
8*
-
4*
ZeroBench
11
7*
9*
12*
-
3*
ZeroBench(含工具)
92.3
80.7*
86.5*
90.3*
-
87.5
OCRBench
88.8
85.7
87.7*
88.5
-
82.0*
OmniDocBench 1.5
92.6
84*
76.9*
57.2*
-
89.5
InfoVQA(验证集)
71.2
55.8*
69.7*
69.7*
-
56.8*
SimpleVQA
46.3
28.0
36.8
47.4
-
23.5
WorldVQA
86.6
85.9
84.4*
87.6
-
80.0
VideoMMMU
80.4
80.8*
77.3
77.5
-
71.1
MMVU
70.4
64.8
60.3
70.3
-
-
MotionBench
87.4
86.0*
-
88.4*
-
79.0
VideoMME
79.8
76.5*
67.2*
77.7*
-
65.6*
LongVideoBench
75.9
-
-
73.5*
-
63.6
LVBench
编码
76.8
80.0
80.9
76.2
73.1
-
SWE-Bench Verified
50.7
55.6
55.4*
-
-
-
SWE-Bench Pro
73.0
72.0
77.5
65.0
70.2
-
SWE-Bench 多语言
50.8
54.0
59.3
54.2
46.4
-
Terminal Bench 2.0
63.5
63.7*
72.9*
-
47.1
-
PaperBench
41.3
-
50.6
39.9*
17.3*
-
CyberGym
48.7
52.1
49.5
56.1
38.9
-
SciCode
57.4
-
54.6*
68.5*
54.7*
-
OJBench(cpp)
85.0
-
82.2*
87.4*
83.3
-
LiveCodeBench(v6)
长上下文
61.0
54.5*
64.4*
68.2*
59.8*
-
Longbench v2
70.0
72.3*
71.3*
65.3*
64.3*
-
AA-LCR
智能代理检索
60.6
65.8
37.0
37.8
51.4
-
BrowseComp
74.9
65.8
57.8
59.2
67.6
-
BrowseComp(含上下文管理)
78.4
-
-
-
-
-
BrowseComp(Agent Swarm)
72.7
-
76.2*
57.0
32.5*
-
WideSearch(item-f1)
79.0
-
-
-
-
-
WideSearch(item-f1 Agent Swarm)
77.1
71.3*
76.1*
63.2*
60.9*
-
DeepSearchQA
67.8
-
66.2*
49.9
59.1*
-
FinSearchCompT2&T3
57.4
45.0
47.7*
45.5*
49.5*
-
Seal-0
*注释= 分数由作者重新评估(此前未公开)。†-= DeepSeek V3.2 的得分对应其仅文本子集(如脚注所述)。 = 未评估 / 不可用。
最后更新于
这有帮助吗?

