MiniMax-M2.5:如何运行指南

在你自己的设备上本地运行 MiniMax-M2.5!

MiniMax-M2.5 是一款全新的开放 LLM,在编程、智能体式工具使用、搜索和办公工作中达到了 SOTA,在 SWE-Bench Verified、Multi-SWE-Bench 中达到 51.3%,在 BrowseComp 中达到 76.3%。

这些 2300亿参数 (100亿活跃)模型拥有 20万上下文 窗口,未量化的 bf16 需要 457GB。Unsloth Dynamic 3-bit GGUF 将大小降至 101GB (-62%): MiniMax-M2.5 GGUF

所有上传都使用 Unsloth Dynamic 2.0 ,以获得 SOTA 量化性能——因此 3-bit 会将重要层上转为 8 位或 16 位。你也可以通过 Unsloth 使用多 GPU 对模型进行微调。

⚙️ 使用指南

3-bit 动态量化 UD-Q3_K_XL 使用 101GB 磁盘空间——这非常适合 128GB 统一内存的 Mac ,可实现约 20+ tokens/s,而且在以下配置下也能更快运行: 1x16GB GPU 和 96GB RAM ,可达到 25+ tokens/s。 2-bit 量化版本,或者最大的 2-bit 版本可安装在 96GB 设备上。

对于接近 全精度,请使用 Q8_0 (8-bit),它占用 243GB,可安装在 256GB RAM 的设备 / Mac 上,速度可达 10+ tokens/s。

推荐设置

MiniMax 建议使用以下参数以获得最佳性能: temperature=1.0, top_p = 0.95, top_k = 40.

默认设置(大多数任务)

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 或禁用

  • 最大上下文窗口: 196,608

  • Min_P = 0.01 (默认值可能为 0.05)

  • 默认系统提示词:

你是一个有帮助的助手。你的名字是 MiniMax-M2.5,由 MiniMax 构建。

运行 MiniMax-M2.5 教程:

在这些教程中,我们将使用 3-bit UD-Q3_K_XL 量化版本,它可适配 128GB RAM 设备。

✨ 直接在 llama.cpp 中运行

1

获取最新的 llama.cppGitHub 这里。你也可以按照下面的构建说明进行。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

如果你想直接使用 llama.cpp 直接加载模型,你可以执行以下操作:(:Q3_K_XL)是量化类型。你也可以通过 Hugging Face 下载(见第3点)。这类似于 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。请记住,该模型的最大上下文长度只有 20 万。

针对 大多数默认 用例:

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \\
    --ctx-size 16384 \
    --flash-attn on \\
    --temp 1.0 \
    --top-p 0.95 \\
    --min-p 0.01 \\
    --top-k 40
3

通过以下方式下载模型(安装完 pip install huggingface_hub hf_transfer )。你可以选择 UD-Q3_K_XL (动态 4-bit 量化)或其他量化版本,例如 UD-Q6_K_XL 。我们建议使用我们的 4bit 动态量化 UD-Q3_K_XL 来平衡大小和准确率。如果下载卡住,请参见 Hugging Face Hub,XET 调试

hf download unsloth/MiniMax-M2.5-GGUF \\
    --local-dir unsloth/MiniMax-M2.5-GGUF \\
    --include "*UD-Q3_K_XL*" # 8-bit 请使用 "*Q8_0*"
4

你可以编辑 --threads 32 以设置 CPU 线程数, --ctx-size 16384 用于上下文长度, --n-gpu-layers 2 以设置有多少层卸载到 GPU。如果你的 GPU 显存不足,请尝试调整它。如果你仅使用 CPU 推理,也请移除它。

./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \\
    --temp 1.0 \
    --top-p 0.95 \\
    --min-p 0.01 \\
    --top-k 40 \\
    --ctx-size 16384 \
    --seed 3407

🦙 Llama-server 和 OpenAI 的 completion 库

为了将 MiniMax-M2.5 部署到生产环境,我们使用 llama-server 或 OpenAI API。在一个新的终端中,例如通过 tmux,使用以下方式部署模型:

然后在一个新终端中,在执行 pip install openai之后,执行:

📊 基准测试

Unsloth GGUF 基准测试

Benjamin Marie(第三方)进行了基准测试 MiniMax-M2.5 使用 Unsloth GGUF 量化版本750 条提示的混合套件 (LiveCodeBench v6、MMLU Pro、GPQA、Math500),同时报告 整体准确率相对错误增加 (量化模型相比原始模型更频繁出错的程度)。

Unsloth 量化版本无论精度如何,在准确率和相对误差方面都比非 Unsloth 对应版本表现更好得多(尽管体积小 8GB)。

关键结果:

  • 这里最佳的质量/体积权衡: unsloth UD-Q4_K_XL. 它最接近原始模型:只低了 6.0 分 ,而且“仅仅” +22.8% 比基线多出更多错误。

  • 其他 Unsloth Q4 量化版本的表现非常接近(约 64.5–64.9 准确率)。 IQ4_NL, MXFP4_MOE,以及 UD-IQ2_XXS 在这个基准上基本属于同一质量水平,且比原始模型 约 33–35% 有更多错误。

  • Unsloth GGUF 的表现比其他非 Unsloth GGUF 好得多,例如见 lmstudio-community - Q4_K_M (尽管体积小 8GB)以及 AesSedai - IQ3_S.

官方基准

你可以在下方查看表格形式的基准测试:

基准
MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2(thinking)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench Verified

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

不使用工具的 HLE

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

SWE-Bench 多语言

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro(平均)

54.2

42.4

55.2

55.6

36.9

BrowseComp(含上下文)

76.3

62.0

67.8

84.0

59.2

65.8

宽泛搜索

70.3

63.2

76.2

79.4

57.0

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL 多轮

76.8

37.4

68.0

63.3

61.0

τ² Telecom

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

金融建模

21.6

17.3

30.1

33.2

15.0

20.0

编程核心基准得分
搜索与工具使用
每 100 个任务完成数
办公能力

最后更新于

这有帮助吗?