🥝Kimi K2.5:如何在本地运行指南
在你自己的本地设备上运行 Kimi-K2.5 的指南!
Kimi-K2.5 是 Moonshot 推出的新模型,在视觉、编程、智能体和聊天任务上实现了 SOTA 性能。这个 1T 参数的混合推理模型需要 600GB 磁盘空间,而量化 Unsloth Dynamic 1.8-bit 版本将其减少到 240GB(-60% 大小): Kimi-K2.5-GGUF
所有上传都使用 Unsloth Dynamic 2.0 用于 SOTA Aider 和 5-shot MMLU 性能。看看我们的 Dynamic 1–2 bit GGUF 在 编程基准.
⚙️ 推荐要求
你需要 >240GB 的磁盘空间 才能运行 1-bit 量化!
为获得最佳性能,请确保你可用的总内存(显存 + 系统内存)超过你下载的量化模型文件大小。如果不足,llama.cpp 仍然可以通过 SSD/HDD 卸载运行,但推理速度会更慢。
1.8-bit(UD-TQ1_0)量化如果将所有 MoE 层卸载到系统内存(或高速 SSD)上,可以在单张 24GB GPU 上运行。若有约 256GB RAM,预计可达到约 10 tokens/s。完整的 Kimi K2.5 模型大小为 630GB,通常至少需要 4× H200 GPU。
如果模型能放下,使用 B200 时你会得到 >40 tokens/s。
要以接近 全精度的方式运行该模型,可以使用 4-bit 或 5-bit 量化。为了保险起见,你也可以使用更高位宽的量化。
为了获得较强性能,建议统一内存(或 RAM+VRAM 总和)超过 240GB,以达到 10+ tokens/s。如果低于这个值,也能运行,但速度会下降(llama.cpp 仍可通过 mmap/磁盘卸载运行),并可能从约 10 tokens/s 降到 <2 token/s。
我们推荐 UD-Q2_K_XL(375GB),它在体积和质量之间取得了不错的平衡。最简单的经验法则:RAM+VRAM ≈ 量化大小;否则仍然可以运行,只是由于卸载会更慢。
🥝 运行 Kimi K2.5 指南
Kimi-K2.5 针对不同使用场景需要不同的采样参数。
目前 不支持视觉 该模型,但希望 llama.cpp 很快会支持它。
要以完全精度运行模型,你只需要使用 4-bit 或 5-bit 的 Dynamic GGUF(例如 UD_Q4_K_XL),因为该模型最初就是以 INT4 格式发布的。
你也可以选择更高位宽的量化,以防量化差异很小而更稳妥,但在大多数情况下这是不必要的。
🌙 使用指南:
根据 Moonshot AI,以下是 Kimi K2.5 推理的推荐设置:
temperature = 0.6
temperature = 1.0
top_p = 0.95
top_p = 0.95
min_p = 0.01
min_p = 0.01
将 temperature 1.0 以减少重复和不连贯。
建议上下文长度 = 98,304(最高可达 256K)
注意:使用不同工具可能需要不同设置
我们建议将 min_p 设为 0.01 用于抑制低概率、不太可能出现的 token。并且 如有需要,禁用或将 repeat penalty 设为 1.0 。
Kimi K2.5 的聊天模板
运行 tokenizer.apply_chat_template([{"role": "user", "content": "1+1 等于多少?"},]) 得到:
🦥 在 Unsloth Studio 中运行 Kimi-K2.5
Kimi-K2.5 可以在 Unsloth Studio,我们新的用于本地 AI 的开源网页界面。使用 Unsloth Studio,你可以在以下平台本地运行模型: MacOS、Windows、Linux 和:

安装 Unsloth
在你的终端中运行:
MacOS、Linux、WSL:
Windows PowerShell:
安装会很快,预计大约需要 1-2 分钟。
启动 Unsloth
MacOS、Linux、WSL 和 Windows:
然后在浏览器中打开 http://localhost:8888 。
搜索并下载 Kimi-K2.5
首次启动时,你需要创建一个密码来保护你的账户,并在之后重新登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基础设置。你可以随时跳过并直接进入聊天。
然后前往 Studio Chat 标签页并搜索 Kimi-K2.5 在搜索栏中下载你想要的模型和量化版本。请确保你有足够的算力来运行该模型。

运行 Kimi-K2.5
在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。
如需更多信息,你可以查看我们的 Unsloth Studio 推理指南.

✨ 在 llama.cpp 中运行 Kimi K2.5
在本指南中,我们将运行最小的 1-bit 量化版本,大小为 240GB。你可以自由将量化类型改为 2-bit、3-bit 等。要以接近 全精度的方式运行该模型,可以使用 4-bit 或 5-bit 量化。为了保险起见,你也可以使用更高位宽的量化。
获取最新的
llama.cpp在 GitHub 这里。你也可以按照下面的构建说明操作。将-DGGML_CUDA=ON改为-DGGML_CUDA=OFF如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置-DGGML_CUDA=OFF然后照常继续——Metal 支持默认开启。
如果你想使用
llama.cpp直接加载模型,你可以使用下面的方法:(:UD-TQ1_0)是量化类型。你也可以通过 Hugging Face 下载(见第 3 点)。这与以下方式类似ollama run。使用export LLAMA_CACHE="folder"来强制llama.cpp用于保存到特定位置。
LLAMA_SET_ROWS=1 会让 llama.cpp 快一点!用起来吧! --fit on 会自动将模型最优地适配到你的所有 GPU 和 CPU 上。
--fit on会自动将模型适配到你的系统。如果不使用--fit on并且你有大约 360GB 的总 GPU 显存,请移除-ot ".ffn_.*_exps.=CPU"以获得最大速度。
使用 --fit on 用于在 GPU 和 CPU 上自动适配。如果这不起作用,请看下方:
请试试 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许你将所有非 MoE 层放到 1 张 GPU 上,从而提高生成速度。如果你有更多 GPU 容量,可以自定义正则表达式以适配更多层。
如果你的 GPU 内存再多一些,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会卸载上、下投影 MoE 层。
再试试 -ot ".ffn_(up)_exps.=CPU" 如果你的 GPU 内存更多一些。这样只会卸载上投影 MoE 层。
最后通过以下方式卸载所有层: -ot ".ffn_.*_exps.=CPU" 这使用的 VRAM 最少。
你也可以自定义正则表达式,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层开始卸载 gate、up 和 down MoE 层。
通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer)。我们建议使用我们的 2bit 动态量化 UD-Q2_K_XL 来平衡体积和准确性。所有版本见: huggingface.co/unsloth/Kimi-K2.5-GGUF 如果下载卡住,请查看 Hugging Face Hub,XET 调试
如果你发现下载卡在 90% 到 95% 左右,请查看我们的 故障排除指南.
运行任意提示词。
编辑
--ctx-size 16384用于上下文长度。你也可以省略这一项,以便通过--fit on
例如,试试:“用 HTML 创建一个 Flappy Bird 游戏”,你将得到:

✨ 使用 llama-server 和 OpenAI 的 completion 库进行部署
使用 --kv-unified 可以让 llama.cpp 的推理服务更快!请看 https://www.reddit.com/r/LocalLLaMA/comments/1qnwa33/glm_47_flash_huge_performance_improvement_with_kvu/
按照 Kimi K2.5安装 llama.cpp 后,你可以使用下面的方法启动一个兼容 OpenAI 的服务器:
然后在以下命令之后使用 OpenAI 的 Python 库 pip install openai :
我们得到:

以及在另一个 llama-server 窗口中:

📊 基准测试
你可以在下方查看表格形式的更多基准结果:

推理与知识
HLE-完整
30.1
34.5
30.8
37.5
25.1†
-
HLE-完整(带工具)
50.2
45.5
43.2
45.8
40.8†
-
AIME 2025
96.1
100
92.8
95.0
93.1
-
HMMT 2025(2月)
95.4
99.4
92.9*
97.3*
92.5
-
IMO-AnswerBench
81.8
86.3
78.5*
83.1*
78.3
-
GPQA-Diamond
87.6
92.4
87.0
91.9
82.4
-
MMLU-Pro
87.1
86.7*
89.3*
90.1
85.0
-
图像与视频
MMMU-Pro
78.5
79.5*
74.0
81.0
-
69.3
CharXiv(RQ)
77.5
82.1
67.2*
81.4
-
66.1
MathVision
84.2
83.0
77.1*
86.1*
-
74.6
MathVista(mini)
90.1
82.8*
80.2*
89.8*
-
85.8
ZeroBench
9
9*
3*
8*
-
4*
ZeroBench(带工具)
11
7*
9*
12*
-
3*
OCRBench
92.3
80.7*
86.5*
90.3*
-
87.5
OmniDocBench 1.5
88.8
85.7
87.7*
88.5
-
82.0*
InfoVQA(验证集)
92.6
84*
76.9*
57.2*
-
89.5
SimpleVQA
71.2
55.8*
69.7*
69.7*
-
56.8*
WorldVQA
46.3
28.0
36.8
47.4
-
23.5
VideoMMMU
86.6
85.9
84.4*
87.6
-
80.0
MMVU
80.4
80.8*
77.3
77.5
-
71.1
MotionBench
70.4
64.8
60.3
70.3
-
-
VideoMME
87.4
86.0*
-
88.4*
-
79.0
LongVideoBench
79.8
76.5*
67.2*
77.7*
-
65.6*
LVBench
75.9
-
-
73.5*
-
63.6
编程
SWE-Bench Verified
76.8
80.0
80.9
76.2
73.1
-
SWE-Bench Pro
50.7
55.6
55.4*
-
-
-
SWE-Bench 多语言
73.0
72.0
77.5
65.0
70.2
-
Terminal Bench 2.0
50.8
54.0
59.3
54.2
46.4
-
PaperBench
63.5
63.7*
72.9*
-
47.1
-
CyberGym
41.3
-
50.6
39.9*
17.3*
-
SciCode
48.7
52.1
49.5
56.1
38.9
-
OJBench(cpp)
57.4
-
54.6*
68.5*
54.7*
-
LiveCodeBench(v6)
85.0
-
82.2*
87.4*
83.3
-
长上下文
Longbench v2
61.0
54.5*
64.4*
68.2*
59.8*
-
AA-LCR
70.0
72.3*
71.3*
65.3*
64.3*
-
智能体搜索
BrowseComp
60.6
65.8
37.0
37.8
51.4
-
BrowseComp(带上下文管理)
74.9
65.8
57.8
59.2
67.6
-
BrowseComp(Agent Swarm)
78.4
-
-
-
-
-
WideSearch(item-f1)
72.7
-
76.2*
57.0
32.5*
-
WideSearch(item-f1 Agent Swarm)
79.0
-
-
-
-
-
DeepSearchQA
77.1
71.3*
76.1*
63.2*
60.9*
-
FinSearchCompT2&T3
67.8
-
66.2*
49.9
59.1*
-
Seal-0
57.4
45.0
47.7*
45.5*
49.5*
-
注释
*= 分数由作者重新评估(此前未公开提供)。†= DeepSeek V3.2 的分数对应其仅文本子集(如脚注所示)。-= 未评估 / 不可用。
最后更新于
这有帮助吗?

