💥Magistral:如何运行与微调

认识 Magistral —— Mistral 的新推理模型。

Magistral-Small-2509 是由 Mistral AI 开发的推理型大语言模型。它在编程和数学方面表现出色,并支持多种语言。Magistral 支持 128k 令牌的上下文窗口,并在以下模型基础上进行了微调: Mistral-Small-3.2arrow-up-right。Magistral 可在单张 RTX 4090 或具有 16 到 24GB 内存的 Mac 本地完美运行。

运行 Magistral 教程 微调 Magistral

circle-check

所有上传均使用 Unsloth Dynamic 2.0 以获得在 5-shot MMLU 和 KL 散度上的 SOTA 表现,这意味着你可以以最小的准确性损失运行并微调量化的 Mistral 大模型。

Magistral-Small - Unsloth 动态 上传:

🖥️ 运行 Magistral

⚙️ 官方推荐设置

根据 Mistral AI 的建议,以下是推理的推荐设置:

  • Temperature:0.7

  • Min_P:0.01(可选,但 0.01 表现良好,llama.cpp 的默认值为 0.1)

  • top_p:0.95

  • 支持 128k 上下文窗口, 性能可能在超过 40k后下降。因此,如果你看到性能不佳,建议将最大长度设置为 40k。

这是 Magistral 2509、2507 推荐的系统提示:

这是 Magistral 2506 推荐的系统提示:

circle-check
  • 多语言: Magistral 支持多种语言,包括:英语、法语、德语、希腊语、印地语、印度尼西亚语、意大利语、日语、韩语、马来语、尼泊尔语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、西班牙语、瑞典语、土耳其语、乌克兰语、越南语、阿拉伯语、孟加拉语、中文和波斯语(Farsi)。

测试模型

Mistral 有他们自己的 vibe checking 提示,可用于评估 Magistral。请记住这些测试基于运行完整的未量化模型,但你也可以在量化版本上测试它们:

简单 - 确保它们总是有效

- 大多数时候应该是正确的

困难 - 有时应该能答对

我们提供一些 示例输出 在博客结尾处。

🦙 教程:如何在 Ollama 中运行 Magistral

  1. 安装 ollama 如果你还没有安装!

  1. 使用我们的动态量化来运行模型。我们没有自动设置上下文长度,所以它将使用 Ollama 的默认上下文长度。 注意你可以调用 ollama serve &!我们在 params 中!

  2. 另外 Magistral 支持 40K 上下文长度,因此最好启用 KV 缓存量化arrow-up-right。我们使用 8bit 量化来节省 50% 的内存使用。你也可以尝试 "q4_0""q8_0"

  3. Ollama 还将默认上下文长度设置为 4096,如 此处所述arrow-up-right类似。使用 OLLAMA_CONTEXT_LENGTH=8192 将其更改为 8192。Magistral 支持最高 128K,但 40K(40960)是经过测试的最多。

📖 教程:如何在 llama.cpp 中运行 Magistral

  1. 获取最新的 llama.cpp此处的 GitHubarrow-up-right。您也可以按照下面的构建说明进行。若 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果您没有 GPU 或仅想要在 CPU 上进行推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认启用。

  1. 如果您想直接使用 llama.cpp 来加载模型,你可以如下操作:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这与 ollama run

circle-exclamation
  1. 通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 UD-Q4_K_XL(Unsloth Dynamic)、Q4_K_M 或其他量化版本(如 BF16 全精度)。

  1. 运行模型。

  2. 编辑 --threads -1 以使用最大 CPU 线程, --ctx-size 40960 用于上下文长度(Magistral 支持 40K 上下文长度!), --n-gpu-layers 99 用于 GPU 卸载的层数。若你的 GPU 出现内存不足,尝试调整此值。如果仅使用 CPU 推理,则移除该项。我们还对 K 缓存使用 8bit 量化以减少内存使用。

  3. 用于对话模式:

circle-exclamation

示例输出

chevron-rightHow many "r" are in strawberry? [正确答案 = 3]hashtag
chevron-right法国大革命究竟是多少天前开始的?今天是 2025 年 6 月 4 日。 [正确答案 = 86,157 天]hashtag

circle-check

Xuan-Sonarrow-up-right GGUF 仓库arrow-up-right

可以 arrow-up-right

arrow-up-right

如果你使用的是旧版本 Unsloth 和/或在本地进行微调,请安装最新版本的 Unsloth:

💠

这里arrow-up-right.

最后更新于

这有帮助吗?