🥝Kimi K2.6 - 如何在本地运行
在你自己的本地设备上运行 Kimi-K2.6 的分步指南。
Kimi K2.6 是 Moonshot 推出的开源模型,在视觉、编程、Agent、长上下文和聊天任务上都能提供 SOTA 性能。这个 1T 参数的混合思考模型具有 256K 的上下文长度,完整精度需要 610GB 磁盘空间,动态 2-bit 需要 350GB(-43% 大小)。通过 Unsloth Dynamic 运行 Kimi K2.6 Kimi-K2.6-GGUFs ,可在 Unsloth Studio 或 llama.cpp 上使用。
动态 2-bit 会将重要层提升到 8-bit,并需要 350GB+ 显存/内存 配置. 对于 无损的 Kimi K2.6,请使用 Q8(UD-Q8_K_XL),它只比 Q4( 大 10GB )多。UD-Q4_K_XL。所有上传都使用 Dynamic 2.0 以获得 SOTA 量化性能。Kimi-K2.6 GGUF 也 支持视觉。
表:硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)
磁盘空间
340 GB
584 GB
595 GB
困惑度
2.4131
1.8420
1.8419
📊 量化分析
UD-Q8_K_XL 是无损的,因为 Kimi 对 MoE 权重使用 int4,对其他所有部分使用 BF16,而 Q8_K_XL 遵循这一点。 UD-Q4_K_XL 类似,只是其余张量是 Q8_0,因此它接近完整精度,并需要 600GB RAM/VRAM。来自其他提供方的其他非 Unsloth GGUF 可能采用 UD-Q4_K_XL 方法,而不是“真正无损”的 UD-Q8_K_XL.
我们遵循了 jukofyork的发现,即 const float d = max / -7; 而不是默认的 const float d = max / -8; ,仅在 MoE 层的量化过程中。这个针对 INT4 原生 MoE 的双射补丁使 Q4_0 量化类型将绝对误差从 1.8% 降至接近 0%(epsilon)。
不过,我们必须将其他层保留为 BF16,并在下方展示它们相对于 BF16 基线的误差图。 UD-Q8-K_XL 在将 Q4_0 转换为 BF16 时,确实是“无损”的,仅存在一些机器 epsilon 级别的差异。 UD-Q8_K_XL 的困惑度为 1.8419 ± 0.00721,而 UD-Q4_K_XL 1.8420 ± 0.00720。请注意,下方的误差图是 RMSE 除以 bfloat16 epsilon,因此这是一个很小的误差尺度。

Q4_K_XL (蓝色)与 Q8_K_XL (橙色)之间的差异,后者是无损的,并且大 10GB。⚙️ 使用指南
思考模式和非思考模式需要不同设置:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
建议的上下文长度 =
98,304(最多262,144)
如果模型能放得下,在使用 B200 时你会获得 >40 tokens/s。我们推荐 UD-Q2_K_XL (350GB)作为大小/质量平衡的不错选择。最佳经验法则:RAM+VRAM ≈ 量化大小;否则它仍然可以运行,只是由于卸载会更慢。
Kimi K2.6 的聊天模板
运行 tokenizer.apply_chat_template([{"role": "user", "content": "1+1 等于多少?"},]) 得到:
运行 Kimi K2.6 指南
🦥 在 Unsloth Studio 中运行 Kimi-K2.6
Kimi K2.6 可以在 Unsloth Studio中运行,这是一个用于本地 AI 的开源 Web UI。 Unsloth Studio 会自动卸载到 RAM,并检测多 GPU 配置。使用 Unsloth Studio,你可以在本地运行模型,支持 MacOS、Windows、Linux 以及:

安装并启动 Unsloth
要安装,请在终端中运行:
MacOS、Linux、WSL:
Windows PowerShell:
启动 Unsloth
MacOS、Linux、WSL 和 Windows:
然后打开 http://localhost:8888 在浏览器中。
搜索并下载 Kimi-K2.6
Unsloth Studio 会自动卸载到 RAM,并检测多 GPU 配置。首次启动时,你需要创建密码以保护账户,并在之后重新登录。
然后转到 Studio Chat 标签页,并在 Kimi-K2.6 搜索栏中搜索,下载你想要的模型和量化版本。确保你有足够的计算资源来运行该模型。

运行 Kimi-K2.6
在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。
有关更多信息,你可以查看我们的 Unsloth Studio 推理指南.

🦙 在 llama.cpp 中运行 Kimi K2.6
本指南中我们将运行 UD-Q2_K_XL 量化版本,它至少需要 350GB RAM。你也可以自由更改量化类型。GGUF: Kimi-K2.6-GGUF
对于这些教程,我们将使用 llama.cpp 进行快速本地推理,尤其是在你有 CPU 的情况下。
获取最新的 llama.cpp 在 GitHub 上这里。你也可以按照下面的构建说明进行操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF ,如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认已启用。
如果你想使用 llama.cpp 直接加载模型,你可以执行以下操作:(Q2_K_XL)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大 262,144 上下文长度。
根据你的使用场景,使用下面的特定命令之一:
思考模式:
非思考模式(即时):
通过下面的代码下载模型(在安装之后 pip install huggingface_hub hf_transfer)。如果下载卡住,请参见: Hugging Face Hub,XET 调试
然后在对话模式下运行模型:
📊 基准测试
你可以在下方查看表格形式的更多基准测试:

最后更新于
这有帮助吗?

