waveformMiniMax-2.5:运行指南

在您自己的设备上本地运行 MiniMax-2.5!

MiniMax-2.5 是一个新的开源大模型,在编码、代理工具使用以及搜索和办公任务上达到了最新水平(SOTA),在以下测试中得分为 80.2%: SWE-Bench 验证集,Multi-SWE-Bench 得分 51.3%,BrowseComp 得分 76.3%。

完整的 2300亿 参数 (激活参数 100亿)模型具有一个 20万 上下文 窗口,且 8 位 LLM 需要 243GB. Unsloth Dynamic 3 位 GGUF 将大小减小到 101GB (-62%): MiniMax-2.5 GGUFarrow-up-right

所有上传都使用 Unsloth Dynamic 2.0 以获得最先进的量化性能——因此 3 位量化将重要层提升为 8 或 16 位。你也可以通过 Unsloth 使用多 GPU 对模型进行微调。

⚙️ 使用指南

4 位动态量化 UD-Q3_K_XL 使用 101GB 的磁盘空间 —— 这非常适合放在一台 128GB 统一内存的 Mac 上可达到约每秒 20+ 标记,同时在配备 1x16GB GPU 和 96GB 内存 的情况下可达到每秒 25+ 标记。 2 位 量化或最大的 2 位版本将适合 96GB 设备。

对于接近 全精度,请使用 Q8_0 (8 位)它使用 243GB,并且可以在具有 256GB 内存的设备/Mac 上运行,速度约为每秒 10+ 标记。

circle-check

推荐设置

MiniMax 建议使用以下参数以获得最佳性能: temperature=1.0, top_p = 0.95, top_k = 40.

默认设置(大多数任务)

temperature = 1.0

top_p = 0.95

top_k = 40

  • 最大上下文窗口: 196,608.

  • 使用 --jinja 用于 llama.cpp 变体。

  • 默认系统提示:

你是一个乐于助人的助手。你的名字是 MiniMax-M2.5,由 MiniMax 构建。

运行 MiniMax-2.5 教程:

在这些教程中,我们将使用 3 位 UD-Q3_K_XLarrow-up-right 量化,适合放在 128GB 内存的设备中。

✨ 在 llama.cpp 中运行

1

获取最新的 llama.cppGitHub 在此处arrow-up-right。你也可以按照下面的构建说明操作。若无 GPU 或仅想使用 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果你想直接使用 llama.cpp 来加载模型,你可以按下面操作:(:Q3_K_XL)是量化类型。你也可以通过 Hugging Face(点 3)下载。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。请记住该模型的最大上下文长度为 20 万。

按以下方式用于 大多数默认 用例:

circle-info

使用 --fit on 以最大限度地利用你的 GPU 和 CPU。

可选地,尝试 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实质上允许你将所有非 MoE 层放在 1 个 GPU 上,从而提高生成速度。如果你有更多 GPU 资源,可以自定义正则表达式以卸载更多层。

如果你有更多的 GPU 显存,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会将上投影和下投影的 MoE 层卸载。

尝试 -ot ".ffn_(up)_exps.=CPU" 如果你还有更多 GPU 显存。这只卸载上投影的 MoE 层。

最后通过卸载所有层使用 -ot ".ffn_.*_exps.=CPU" 这使用最少的显存。

你也可以自定义正则,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 意味着从第 6 层起将 gate、up 和 down 的 MoE 层卸载到 CPU。

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 UD-Q3_K_XL (动态 4 位量化)或其他量化版本,例如 UD-Q6_K_XL 。我们建议使用我们的 4 位动态量化 UD-Q3_K_XL 以在大小和准确性之间取得平衡。

4

你可以编辑 --threads 32 来设置 CPU 线程数, --ctx-size 16384 来设置上下文长度, --n-gpu-layers 2 来设置用于 GPU 卸载的层数。如果你的 GPU 出现内存不足,尝试调整它。若仅使用 CPU 推理,则移除此项。

🦙 Llama-server 与 OpenAI 的 completion 库

要将 MiniMax-2.5 部署到生产环境,我们使用 llama-server 或 OpenAI API。在新终端(例如通过 tmux)中,通过以下命令部署模型:

然后在新终端中,完成以下操作后, pip install openai,执行:

📊 基准测试

你可以在下方以表格形式查看更多基准测试:

基准
MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2(思考中)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

不带工具的 HLE

19.4

22.2

28.4

30.7

37.2

31.4

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench 验证集

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench 专业版

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

SWE-Bench 多语言版

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro(平均)

54.2

42.4

55.2

55.6

36.9

BrowseComp(带上下文)

76.3

62.0

67.8

84.0

59.2

65.8

广泛搜索

70.3

63.2

76.2

79.4

57.0

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL 多轮对话

76.8

37.4

68.0

63.3

61.0

τ² 电信

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

金融建模

21.6

17.3

30.1

33.2

15.0

20.0

编码核心基准分数
搜索与工具使用
每 100 个任务完成数
办公能力

最后更新于

这有帮助吗?