MiniMax-2.5:运行指南
在您自己的设备上本地运行 MiniMax-2.5!
MiniMax-2.5 是一个新的开源大模型,在编码、代理工具使用以及搜索和办公任务上达到了最新水平(SOTA),在以下测试中得分为 80.2%: SWE-Bench 验证集,Multi-SWE-Bench 得分 51.3%,BrowseComp 得分 76.3%。
完整的 2300亿 参数 (激活参数 100亿)模型具有一个 20万 上下文 窗口,且 8 位 LLM 需要 243GB. Unsloth Dynamic 3 位 GGUF 将大小减小到 101GB (-62%): MiniMax-2.5 GGUF
所有上传都使用 Unsloth Dynamic 2.0 以获得最先进的量化性能——因此 3 位量化将重要层提升为 8 或 16 位。你也可以通过 Unsloth 使用多 GPU 对模型进行微调。
⚙️ 使用指南
4 位动态量化 UD-Q3_K_XL 使用 101GB 的磁盘空间 —— 这非常适合放在一台 128GB 统一内存的 Mac 上可达到约每秒 20+ 标记,同时在配备 1x16GB GPU 和 96GB 内存 的情况下可达到每秒 25+ 标记。 2 位 量化或最大的 2 位版本将适合 96GB 设备。
对于接近 全精度,请使用 Q8_0 (8 位)它使用 243GB,并且可以在具有 256GB 内存的设备/Mac 上运行,速度约为每秒 10+ 标记。
虽然不是必须的,但为了获得最佳性能,请确保你的显存与内存之和等于你下载的量化模型的大小。如果没有,使用 llama.cpp 的硬盘/固态硬盘卸载也能工作,但推理会更慢。
推荐设置
MiniMax 建议使用以下参数以获得最佳性能: temperature=1.0, top_p = 0.95, top_k = 40.
temperature = 1.0
top_p = 0.95
top_k = 40
最大上下文窗口:
196,608.使用
--jinja用于 llama.cpp 变体。默认系统提示:
你是一个乐于助人的助手。你的名字是 MiniMax-M2.5,由 MiniMax 构建。运行 MiniMax-2.5 教程:
在这些教程中,我们将使用 3 位 UD-Q3_K_XL 量化,适合放在 128GB 内存的设备中。
✨ 在 llama.cpp 中运行
获取最新的 llama.cpp 于 GitHub 在此处。你也可以按照下面的构建说明操作。若无 GPU 或仅想使用 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果你想直接使用 llama.cpp 来加载模型,你可以按下面操作:(:Q3_K_XL)是量化类型。你也可以通过 Hugging Face(点 3)下载。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。请记住该模型的最大上下文长度为 20 万。
按以下方式用于 大多数默认 用例:
使用 --fit on 以最大限度地利用你的 GPU 和 CPU。
可选地,尝试 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实质上允许你将所有非 MoE 层放在 1 个 GPU 上,从而提高生成速度。如果你有更多 GPU 资源,可以自定义正则表达式以卸载更多层。
如果你有更多的 GPU 显存,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会将上投影和下投影的 MoE 层卸载。
尝试 -ot ".ffn_(up)_exps.=CPU" 如果你还有更多 GPU 显存。这只卸载上投影的 MoE 层。
最后通过卸载所有层使用 -ot ".ffn_.*_exps.=CPU" 这使用最少的显存。
你也可以自定义正则,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 意味着从第 6 层起将 gate、up 和 down 的 MoE 层卸载到 CPU。
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 UD-Q3_K_XL (动态 4 位量化)或其他量化版本,例如 UD-Q6_K_XL 。我们建议使用我们的 4 位动态量化 UD-Q3_K_XL 以在大小和准确性之间取得平衡。
你可以编辑 --threads 32 来设置 CPU 线程数, --ctx-size 16384 来设置上下文长度, --n-gpu-layers 2 来设置用于 GPU 卸载的层数。如果你的 GPU 出现内存不足,尝试调整它。若仅使用 CPU 推理,则移除此项。
🦙 Llama-server 与 OpenAI 的 completion 库
要将 MiniMax-2.5 部署到生产环境,我们使用 llama-server 或 OpenAI API。在新终端(例如通过 tmux)中,通过以下命令部署模型:
然后在新终端中,完成以下操作后, pip install openai,执行:
📊 基准测试
你可以在下方以表格形式查看更多基准测试:

AIME25
86.3
83.0
91.0
95.6
96.0
98.0
GPQA-D
85.2
83.0
87.0
90.0
91.0
90.0
不带工具的 HLE
19.4
22.2
28.4
30.7
37.2
31.4
SciCode
44.4
41.0
50.0
52.0
56.0
52.0
IFBench
70.0
70.0
58.0
53.0
70.0
75.0
AA-LCR
69.5
62.0
74.0
71.0
71.0
73.0
SWE-Bench 验证集
80.2
74.0
80.9
80.8
78.0
80.0
SWE-Bench 专业版
55.4
49.7
56.9
55.4
54.1
55.6
Terminal Bench 2
51.7
47.9
53.4
55.1
54.0
54.0
Multi-SWE-Bench
51.3
47.2
50.0
50.3
42.7
—
SWE-Bench 多语言版
74.1
71.9
77.5
77.8
65.0
72.0
VIBE-Pro(平均)
54.2
42.4
55.2
55.6
36.9
—
BrowseComp(带上下文)
76.3
62.0
67.8
84.0
59.2
65.8
广泛搜索
70.3
63.2
76.2
79.4
57.0
—
RISE
50.2
34.0
50.5
62.5
36.8
50.0
BFCL 多轮对话
76.8
37.4
68.0
63.3
61.0
—
τ² 电信
97.8
87.0
98.2
99.3
98.0
98.7
MEWC
74.4
55.6
82.1
89.8
78.7
41.3
GDPval-MM
59.0
24.6
61.1
73.5
28.1
54.5
金融建模
21.6
17.3
30.1
33.2
15.0
20.0




最后更新于
这有帮助吗?

