MiniMax-M2.5：运行指南

在您自己的设备上本地运行 MiniMax-M2.5！

MiniMax-M2.5 是一个新的开源大语言模型，在编码、具代理性的工具使用以及搜索和办公任务上达到最新水平（SOTA），在以下测试中得分为 80.2%。 SWE-Bench Verified，在 Multi-SWE-Bench 中得分 51.3%，在 BrowseComp 中得分 76.3%。

该 2300 亿参数 （10B 活跃）模型具有 20 万上下文 窗口且未量化的 bf16 需要 457GB。Unsloth Dynamic 3 位 GGUF 将大小减少到 101GB (-62%): MiniMax-M2.5 GGUF

所有上传都使用 Unsloth Dynamic 2.0 以获得 SOTA 的量化表现——因此 3 位量化的重要层被提升为 8 位或 16 位。你也可以通过 Unsloth 使用多 GPU 对模型进行微调。

2 月 26 日： 查看我们的 GGUF 量化模型在基准测试上的表现在此.

⚙️ 使用指南

3 位动态量化 UD-Q3_K_XL 使用 101GB 的磁盘空间——这很适合放在 128GB 统一内存的 Mac 上以达到约每秒 20+ 标记，并且在配备 1x16GB GPU 和 96GB 内存 时可实现每秒 25+ 标记的更快速度。 2 位 量化或最大的 2 位版本将能放入 96GB 设备。

若需要接近 全精度，使用 Q8_0 （8 位）占用 243GB，可放入 256GB 内存的设备 / Mac，速度约每秒 10+ 标记。

为获得最佳性能，请确保您可用的总内存（VRAM + 系统 RAM）大于您下载的量化模型文件的大小。如果不是，llama.cpp 仍可通过 SSD/HDD 异地卸载运行，但推理会更慢。

运行 MiniMax-M2.5 教程：

在这些教程中，我们将使用 3 位 UD-Q3_K_XL 量化，适合放在 128GB 内存的设备中。

✨ 在 llama.cpp 中运行

获取最新的 llama.cpp 在 GitHub 在此。你也可以按照下面的构建说明。若 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU 或仅想使用 CPU 推理。 对于 Apple Mac / Metal 设备，设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认开启。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

如果你想直接使用 llama.cpp 来加载模型，可以按下面操作：（:Q3_K_XL）是量化类型。你也可以通过 Hugging Face（第 3 点）下载。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。记住模型的最大上下文长度为 200K。

遵循此以获取 大多数默认 用例：

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40

通过以下方式下载模型（在安装后 pip install huggingface_hub hf_transfer ）。你可以选择 UD-Q3_K_XL （动态 4 位量化）或其他量化版本例如 UD-Q6_K_XL 。我们建议使用我们的 4 位动态量化 UD-Q3_K_XL 以在体积和准确性之间取得平衡。如果下载卡住，请参见 Hugging Face Hub、XET 调试

hf download unsloth/MiniMax-M2.5-GGUF \
    --local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # 对于 8 位使用 "*Q8_0*"

你可以编辑 --threads 32 用于设置 CPU 线程数， --ctx-size 16384 用于上下文长度， --n-gpu-layers 2 用于 GPU 卸载时指定多少层。如果你的 GPU 出现内存不足，尝试调整它。如果仅使用 CPU 推理，则移除该参数。

./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40 \
    --ctx-size 16384 \
    --seed 3407

🦙 Llama-server 与 OpenAI 的 completion 库

要在生产环境部署 MiniMax-M2.5，我们使用 llama-server 或 OpenAI API。在新终端中（例如通过 tmux），通过以下命令部署模型：

./llama.cpp/llama-server \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    --alias "unsloth/MiniMax-M2.5" \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40 \
    --ctx-size 16384 \
    --port 8001

然后在新终端中，在执行 pip install openai之后，执行：

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/MiniMax-M2.5",
    messages = [{"role": "user", "content": "Create a Snake game."},],
)
print(completion.choices[0].message.content)

📊 基准测试

Unsloth GGUF 基准

Benjamin Marie（第三方）对以下项进行了基准测试 MiniMax-M2.5 使用了 Unsloth GGUF 量化 在一个 750 个提示的混合测试套件 （LiveCodeBench v6、MMLU Pro、GPQA、Math500），报告了 总体准确率 和 相对错误增加 （量化模型比原始模型更容易出错的程度）。

Unsloth 的量化方法，无论其精度如何，在准确性和相对错误方面都比非 Unsloth 的同类产品表现更好（尽管体积小 8GB）。

主要结果：

此处最佳质量/体积权衡： unsloth UD-Q4_K_XL. 它最接近原始模型：仅 下降 6.0 个点， 并且“仅”比基线多 +22.8% 的错误。
其他 Unsloth Q4 量化版本表现相近（约 64.5–64.9 的准确率）。 IQ4_NL, MXFP4_MOE，以及 UD-IQ2_XXS 在该基准上质量基本相同，具有 约 33–35% 比原始模型更多的错误。
Unsloth GGUF 的表现远超其他非 Unsloth GGUF，例如参见 lmstudio-community - Q4_K_M （尽管小 8GB）以及 AesSedai - IQ3_S.

官方基准

📊 基准测试

基准

MiniMax-M2.5

MiniMax-M2.1

Claude Opus 4.5

Claude Opus 4.6

Claude 4.5 Opus

GPT-5.2（思考中）

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

73.0

SWE-Bench 已验证

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench 专业版

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

不使用工具的 HLE

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

—

SWE-Bench 多语言

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro（平均）

54.2

42.4

55.2

55.6

36.9

—

BrowseComp（含上下文）

76.3

62.0

67.8

84.0

59.2

65.8

广泛搜索

70.3

63.2

76.2

79.4

57.0

—

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL 多轮对话

76.8

37.4

68.0

63.3

61.0

—

τ² 电信

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

金融建模

21.6

17.3

30.1

33.2

15.0

20.0

上一页Qwen3-Coder-Next 下一页GLM-4.7-Flash

最后更新于7小时前

这有帮助吗？

hashtag⚙️ 使用指南

hashtag推荐设置

hashtag运行 MiniMax-M2.5 教程：

hashtag✨ 在 llama.cpp 中运行

hashtag🦙 Llama-server 与 OpenAI 的 completion 库

hashtag📊 基准测试

hashtagUnsloth GGUF 基准

hashtag官方基准

⚙️ 使用指南

推荐设置

运行 MiniMax-M2.5 教程：

✨ 在 llama.cpp 中运行

🦙 Llama-server 与 OpenAI 的 completion 库

📊 基准测试

Unsloth GGUF 基准

官方基准