MiniMax-M2.7 - 如何本地运行
在你自己的设备上本地运行 MiniMax-M2.7 LLM!
MiniMax-M2.7 是一个面向 agentic 编码和聊天使用场景的新开源模型。该模型在 SWE-Pro(56.22%)和 Terminal Bench 2(57.0%)上取得了 SOTA 性能。
该 230B 参数 (10B 激活)模型是 MiniMax-M25 的继任者,并且拥有 200K 上下文 窗口。未量化的 bf16 需要 457GB. Unsloth Dynamic 4-bit GGUF 将大小缩减至 108GB (-60%) ,因此它可以在 128GB RAM 设备上运行: MiniMax-M2.7 GGUF
所有上传都使用 Unsloth Dynamic 2.0 以获得 SOTA 量化性能——因此重要层会被提升到更高比特位(例如 8 位或 16 位)。感谢 MiniMax 在首日开放访问。
新的 MiniMax-M2.7 GGUF 基准测试现已 उपलब्ध! 在此查看
⚙️ 使用指南
4-bit 动态量化 UD-IQ4_XS 使用 108GB 的磁盘空间——这非常适合 128GB 统一内存 Mac ,可达到约 15+ tokens/s,并且在以下配置下也能更快运行: 1x16GB GPU 和 96GB RAM ,可达到 25+ tokens/s。 2-bit 量化版本或最大的 2-bit 版本可适配 96GB 设备。
对于接近 全精度,请使用 Q8_0 (8-bit),它占用 243GB,可适配 256GB RAM 设备 / Mac,并可达到 15+ tokens/s。
为了获得最佳性能,请确保你的可用总内存(VRAM + 系统 RAM)大于你正在下载的量化模型文件大小。如果不满足,llama.cpp 仍可通过 SSD/HDD 卸载方式运行,但推理会更慢。
推荐设置
MiniMax 建议使用以下参数以获得最佳性能: temperature=1.0, top_p = 0.95, top_k = 40.
temperature = 1.0
top_p = 0.95
top_k = 40
最大上下文窗口:
196,608默认系统提示词:
你是一个有帮助的助手。你的名字是 MiniMax-M2.7,由 MiniMax 构建。运行 MiniMax-M2.7 教程:
为了让 MiniMax-M2.7 在 128GB RAM 设备上运行,我们将使用 4-bit UD-IQ4_XS 量化。你现在可以在 llama.cpp 和 Unsloth Studio.
不要使用 CUDA 13.2 来运行任何模型,因为它可能导致乱码或较差的输出。NVIDIA 正在修复。
🦥 在 Unsloth Studio 中运行
MiniMax-M2.7 现在可以在 Unsloth Studio中运行,这是我们面向本地 AI 的新开源 Web UI。Unsloth Studio 让你可以在本地运行模型于 MacOS、Windows、Linux 以及:

搜索并下载 MiniMax-M2.7
首次启动时,你需要创建一个密码来保护你的账户,并在之后重新登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基本设置。你可以随时跳过它。
你可以选择 UD-IQ4_XS (动态 4bit 量化)或其他量化版本,如 UD-Q4_K_XL 。如果下载卡住,请参阅 Hugging Face Hub,XET 调试
然后前往 Studio Chat 标签页,在搜索栏中搜索 MiniMax-M2.7,并下载你想要的模型和量化版本。由于文件大小较大,下载会花一些时间,请耐心等待。为确保快速推理,请确保你有 足够的 RAM/VRAM,否则推理仍然可以工作,但 Unsloth 会卸载到你的 CPU。

运行 MiniMax-M2.7
使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。
如需更多信息,你可以查看我们的 Unsloth Studio 推理指南.
✨ 在 llama.cpp 中运行
不要使用 CUDA 13.2 来运行任何模型,因为它可能导致乱码或较差的输出。NVIDIA 正在修复。
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明进行。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU 或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认已开启。
如果你想使用 llama.cpp 直接加载模型,你可以使用下面的方法:(:IQ4_XS)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。请记住,该模型的最大上下文长度只有 200K。
按照这个方式用于 大多数默认 使用场景:
下载模型(在安装后 pip install huggingface_hub hf_transfer)。你可以选择 UD-IQ4_XS(动态 4-bit 量化)或其他量化版本,如 UD-Q6_K_XL 。我们建议使用 4bit 动态量化 UD-IQ4_XS 来平衡体积和精度。如果下载卡住,请参阅 Hugging Face Hub,XET 调试
你可以编辑 --threads 32 来设置 CPU 线程数, --ctx-size 16384 来设置上下文长度, --n-gpu-layers 2 来设置 GPU 卸载的层数。如果你的 GPU 显存不足,可以尝试调整它。如果你只进行 CPU 推理,也请移除它。
🦙 Llama-server 与 OpenAI 的 completion 库
为了将 MiniMax-M2.7 部署到生产环境,我们使用 llama-server 或 OpenAI API。在一个新的终端中,例如通过 tmux,使用以下方式部署模型:
然后在一个新的终端中,在执行 pip install openai后,执行:
📊 基准测试
GGUF 基准测试
下面是 MiniMax-M2.7 的 KLD 99% 基准测试。左下角越低越好:

由于 MiniMax-M2.7 使用与 MiniMax-M2.5 相同的架构,M2.7 的 GGUF 量化基准测试应与 M2.5 非常相似。因此,我们也将参考之前针对 M2.5 进行的量化基准测试:

Benjamin Marie(第三方)对 MiniMax-M2.5 进行了基准测试,使用 Unsloth GGUF 量化 在一个 750 提示混合套件 (LiveCodeBench v6、MMLU Pro、GPQA、Math500)上,同时报告了 总体准确率 和 相对错误增长 (即量化模型相对于原始模型更频繁出错的程度)。
无论精度如何,Unsloth 量化版本在准确率和相对错误率方面都明显优于对应的非 Unsloth 版本(尽管体积小了 8GB)。
关键结果:
这里最佳的质量/体积权衡:
unsloth UD-Q4_K_XL. 它最接近原版:只下降了 6.0 分 ,而且“仅仅” +22.8% 比基线多。其他 Unsloth Q4 量化版本表现非常接近(约 64.5–64.9 准确率)。
IQ4_NL,MXFP4_MOE,以及UD-IQ2_XXS在这个基准上质量基本相同, 约 33–35% 比原版有更多错误。Unsloth GGUF 的表现远好于其他非 Unsloth GGUF,例如见
lmstudio-community - Q4_K_M(尽管体积小了 8GB)以及AesSedai - IQ3_S.
官方基准测试

最后更新于
这有帮助吗?

