💥Magistral:如何运行与微调

认识 Magistral — Mistral 的新推理模型系列。

Magistral-Small-2509 是由 Mistral AI 开发的推理型大型语言模型。它在编程和数学方面表现出色,并支持多种语言。Magistral 支持 128k 令牌的上下文窗口,并且是在以下模型的微调基础上得到的: Mistral-Small-3.2arrow-up-right。Magistral 可以在单张 RTX 4090 或配备 16 到 24GB 内存的 Mac 本地完美运行。

运行 Magistral 教程 微调 Magistral

circle-check

所有上传都使用 Unsloth Dynamic 2.0 用于 SOTA 的 5-shot MMLU 和 KL 散度性能,这意味着你可以以最小的准确率损失运行并微调量化的 Mistral 大型语言模型。

Magistral-Small - Unsloth 动态 上传:

🖥️ 运行 Magistral

⚙️ 官方推荐设置

根据 Mistral AI 的说法,以下是推理的推荐设置:

  • 温度(Temperature):0.7

  • Min_P:0.01(可选,但 0.01 效果良好,llama.cpp 的默认值为 0.1)

  • 设置 top_p:0.95

  • 支持 128k 上下文窗口, 在超过以下数量时性能可能下降, 40k。因此,如果你看到性能变差,我们建议将最大长度设置为 40k。

这是针对 Magistral 2509、2507 推荐的系统提示:

这是针对 Magistral 2506 推荐的系统提示:

circle-check
  • 多语言: Magistral 支持多种语言,包括:英语、法语、德语、希腊语、印地语、印度尼西亚语、意大利语、日语、韩语、马来语、尼泊尔语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、西班牙语、瑞典语、土耳其语、乌克兰语、越南语、阿拉伯语、孟加拉语、中文和波斯语。

测试模型

Mistral 有他们自己的“vibe checking”提示,可用于评估 Magistral。请注意这些测试是基于运行模型的未量化(完整精度)版本,但你也可以在量化版本上测试它们:

简单 - 确保它们始终工作

- 大多数时候应该是正确的

困难 - 有时应该能答对

我们在博客末尾提供了一些 示例输出

🦙 教程:如何在 Ollama 中运行 Magistral

  1. 安装 ollama 如果你还没有安装!

  1. 使用我们的动态量化运行模型。我们没有自动设置上下文长度,因此它将使用 Ollama 的默认上下文长度。 注意,如果失败你可以在另一个终端调用 ollama serve &!我们在 params

  2. 中包含了所有建议参数(温度等)。另外,Magistral 支持 40K 上下文长度,最好启用 KV 缓存量化arrow-up-right。我们使用 8bit 量化以节省 50% 的内存。你也可以尝试 "q4_0""q8_0"

  3. Ollama 还将默认上下文长度设置为 4096,正如 在此提到arrow-up-right。使用 OLLAMA_CONTEXT_LENGTH=8192 将其更改为 8192。Magistral 支持最高 128K,但已测试最多 40K(40960)。

📖 教程:如何在 llama.cpp 中运行 Magistral

  1. 获取最新的 llama.cppGitHub(此处)arrow-up-right。您也可以按照下面的构建说明。若没有 GPU 或仅想用 CPU 推理,请将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF

  1. 如果您想直接使用 llama.cpp 来加载模型,你可以如下操作:(:Q4_K_XL) 是量化类型。你也可以通过 Hugging Face 下载(见第 3 点)。这与 ollama run

circle-exclamation
  1. 通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 UD-Q4_K_XL(Unsloth 动态)、Q4_K_M,或其他量化版本(例如 BF16 全精度)。

  1. 运行模型。

  2. 编辑 --ctx-size 对于最大 CPU 线程数, --ctx-size 40960 用于上下文长度(Magistral 支持 40K 上下文长度!), --n-gpu-layers 99 用于 GPU 卸载的层数。若 GPU 出现内存不足,请尝试调整它。如果只有 CPU 推理,请移除该项。我们还对 K 缓存使用 8bit 量化以减少内存使用。

  3. 用于对话模式:

circle-exclamation

示例输出

chevron-right单词 "strawberry" 中有多少个 "r"?【正确答案 = 3】hashtag
chevron-right法国大革命到底是多久以前开始的?今天是 2025 年 6 月 4 日。【正确答案 = 86,157 天】hashtag

(翻译完成)

circle-check

(完) (结束)arrow-up-right (谢谢) (完)arrow-up-right (结束)

(翻译已全部完成)

(完)

(结束) 可以 ( 我已按要求将每个条目逐一独立翻译 ) (完)arrow-up-right(结束)

(翻译交付) (完)arrow-up-right

如果你有旧版本的 Unsloth 和/或在本地进行微调,请安装最新版本的 Unsloth:

💠(完)

(结束)

(结束) 这里arrow-up-right.

最后更新于

这有帮助吗?