For the complete documentation index, see llms.txt. This page is also available as Markdown.

🥝Kimi K2.6 - 如何在本地运行

在你自己的本地设备上运行 Kimi-K2.6 的分步指南。

Kimi K2.6 是 Moonshot 推出的开源模型,在视觉、编程、Agent、长上下文和聊天任务上都能提供 SOTA 性能。这个 1T 参数的混合思考模型具有 256K 的上下文长度,完整精度需要 610GB 磁盘空间,动态 2-bit 需要 350GB(-43% 大小)。通过 Unsloth Dynamic 运行 Kimi K2.6 Kimi-K2.6-GGUFs ,可在 Unsloth Studio 或 llama.cpp 上使用。

动态 2-bit 会将重要层提升到 8-bit,并需要 350GB+ 显存/内存 配置. 对于 无损的 Kimi K2.6,请使用 Q8(UD-Q8_K_XL),它只比 Q4( 大 10GB )多。UD-Q4_K_XL。所有上传都使用 Dynamic 2.0 以获得 SOTA 量化性能。Kimi-K2.6 GGUF 也 支持视觉。

表:硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)

测量
动态 2-bit
Q4
Q8(无损)

磁盘空间

340 GB

584 GB

595 GB

困惑度

2.4131

1.8420

1.8419

📊 量化分析

UD-Q8_K_XL 是无损的,因为 Kimi 对 MoE 权重使用 int4,对其他所有部分使用 BF16,而 Q8_K_XL 遵循这一点。 UD-Q4_K_XL 类似,只是其余张量是 Q8_0,因此它接近完整精度,并需要 600GB RAM/VRAM。来自其他提供方的其他非 Unsloth GGUF 可能采用 UD-Q4_K_XL 方法,而不是“真正无损”的 UD-Q8_K_XL.

我们遵循了 jukofyork的发现,即 const float d = max / -7; 而不是默认的 const float d = max / -8; ,仅在 MoE 层的量化过程中。这个针对 INT4 原生 MoE 的双射补丁使 Q4_0 量化类型将绝对误差从 1.8% 降至接近 0%(epsilon)。

不过,我们必须将其他层保留为 BF16,并在下方展示它们相对于 BF16 基线的误差图。 UD-Q8-K_XL 在将 Q4_0 转换为 BF16 时,确实是“无损”的,仅存在一些机器 epsilon 级别的差异。 UD-Q8_K_XL 的困惑度为 1.8419 ± 0.00721,而 UD-Q4_K_XL 1.8420 ± 0.00720。请注意,下方的误差图是 RMSE 除以 bfloat16 epsilon,因此这是一个很小的误差尺度。

查看 Q4_K_XL (蓝色)与 Q8_K_XL (橙色)之间的差异,后者是无损的,并且大 10GB。

⚙️ 使用指南

思考模式和非思考模式需要不同设置:

默认(思考模式)
即时模式

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

  • 建议的上下文长度 = 98,304 (最多 262,144)

如果模型能放得下,在使用 B200 时你会获得 >40 tokens/s。我们推荐 UD-Q2_K_XL (350GB)作为大小/质量平衡的不错选择。最佳经验法则:RAM+VRAM ≈ 量化大小;否则它仍然可以运行,只是由于卸载会更慢。

Kimi K2.6 的聊天模板

运行 tokenizer.apply_chat_template([{"role": "user", "content": "1+1 等于多少?"},]) 得到:

运行 Kimi K2.6 指南

🦥 在 Unsloth Studio 中运行 Kimi-K2.6

Kimi K2.6 可以在 Unsloth Studio中运行,这是一个用于本地 AI 的开源 Web UI。 Unsloth Studio 会自动卸载到 RAM,并检测多 GPU 配置。使用 Unsloth Studio,你可以在本地运行模型,支持 MacOS、Windows、Linux 以及:

1

安装并启动 Unsloth

要安装,请在终端中运行:

MacOS、Linux、WSL:

Windows PowerShell:

启动 Unsloth

MacOS、Linux、WSL 和 Windows:

然后打开 http://localhost:8888 在浏览器中。

2

搜索并下载 Kimi-K2.6

Unsloth Studio 会自动卸载到 RAM,并检测多 GPU 配置。首次启动时,你需要创建密码以保护账户,并在之后重新登录。

然后转到 Studio Chat 标签页,并在 Kimi-K2.6 搜索栏中搜索,下载你想要的模型和量化版本。确保你有足够的计算资源来运行该模型。

3

运行 Kimi-K2.6

在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。

有关更多信息,你可以查看我们的 Unsloth Studio 推理指南.

使用工具调用运行 Qwen3.6 的示例

🦙 在 llama.cpp 中运行 Kimi K2.6

本指南中我们将运行 UD-Q2_K_XL 量化版本,它至少需要 350GB RAM。你也可以自由更改量化类型。GGUF: Kimi-K2.6-GGUF

对于这些教程,我们将使用 llama.cpp 进行快速本地推理,尤其是在你有 CPU 的情况下。

1

获取最新的 llama.cpp GitHub 上这里。你也可以按照下面的构建说明进行操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF ,如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认已启用。

2

如果你想使用 llama.cpp 直接加载模型,你可以执行以下操作:(Q2_K_XL)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大 262,144 上下文长度。

根据你的使用场景,使用下面的特定命令之一:

思考模式:

非思考模式(即时):

3

通过下面的代码下载模型(在安装之后 pip install huggingface_hub hf_transfer)。如果下载卡住,请参见: Hugging Face Hub,XET 调试

4

然后在对话模式下运行模型:

📊 基准测试

你可以在下方查看表格形式的更多基准测试:

最后更新于

这有帮助吗?