For the complete documentation index, see llms.txt. This page is also available as Markdown.

📙Devstral:如何运行与微调

运行和微调 Mistral Devstral 1.1,包括 Small-2507 和 2505。

Devstral-Small-2507 (Devstral 1.1)是 Mistral 面向软件工程的新型 agentic LLM。它在工具调用、探索代码库以及驱动编码代理方面表现出色。Mistral AI 于 2025 年 5 月发布了原始的 2505 版本。

微调自 Mistral-Small-3.1,Devstral 支持 128k 上下文窗口。Devstral Small 1.1 的性能有所提升,在 SWE-bench verified上取得了 53.6% 的性能得分,使其(2025 年 7 月 10 日)成为该基准上的第 1 个开源模型。

Unsloth Devstral 1.1 GGUF 包含额外的 工具调用支持 以及 聊天模板修复。Devstral 1.1 仍然与 OpenHands 配合良好,但现在也能更好地泛化到其他提示和编码环境。

由于是纯文本模型,Devstral 的视觉编码器在微调前已被移除。我们添加了 可选的视觉支持 到该模型中。

所有 Devstral 上传都使用我们的 Unsloth Dynamic 2.0 方法,在 5-shot MMLU 和 KL 散度基准上提供最佳性能。这意味着,你可以以极小的精度损失运行并微调量化的 Mistral LLM!

Devstral - Unsloth Dynamic 量化:

🖥️ 运行 Devstral

⚙️ 官方推荐设置

根据 Mistral AI,以下是推理推荐设置:

  • 温度从 0.0 到 0.15

  • Min_P 为 0.01(可选,但 0.01 效果很好,llama.cpp 默认值为 0.1)

  • 使用 --jinja 以启用系统提示。

建议使用系统提示,它是 Open Hands 系统提示的衍生版本。完整系统提示如下所示 这里.

🦙 教程:如何在 Ollama 中运行 Devstral

  1. 安装 ollama 如果你还没安装的话!

  1. 使用我们的动态量化运行模型。注意你也可以在 ollama serve &失败时在另一个终端中运行!我们将所有建议参数(temperature 等)包含在 params 中,位于我们的 Hugging Face 上传里!

  2. 此外,Devstral 支持 128K 上下文长度,所以最好启用 KV 缓存量化。我们使用 8bit 量化,可节省 50% 的内存。你也可以尝试 "q4_0"

📖 教程:如何在 llama.cpp 中运行 Devstral

  1. 获取最新的 llama.cpp 默认开启 GitHub 仓库。你也可以按照下面的构建说明进行。将 -DGGML_CUDA=ON-DGGML_CUDA=OFF 改为适用于没有 GPU 或只想进行 CPU 推理的情况。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。

  1. 如果你想使用 llama.cpp 直接加载模型,你可以使用下面的方法:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run

  1. 或者 通过(在安装之后)下载模型 pip install huggingface_hub hf_transfer 。你可以选择 Q4_K_M,或其他量化版本(如 BF16 全精度)。

  1. 运行模型。

  2. 编辑 --threads -1 以使用最大 CPU 线程数, --ctx-size 131072 用于上下文长度(Devstral 支持 128K 上下文长度!), --n-gpu-layers 99 用于 GPU 下放的层数。如果你的 GPU 内存不足,请尝试调整它。如果你只使用 CPU 推理,也请移除它。我们还使用 8bit 量化作为 K 缓存以减少内存使用。

  3. 对于对话模式:

  1. 对于非对话模式,以测试我们的 Flappy Bird 提示词:

👀实验性视觉支持

Xuan-Son 在 Hugging Face 上展示了他们的 GGUF 仓库 如何实际上可以将 Mistral 3.1 Instruct 的视觉编码器“嫁接”到 Devstral 2507 上。我们也上传了我们的 mmproj 文件,这样你就可以使用以下内容:

例如:

指令和输出代码
渲染后的代码

🦥 使用 Unsloth 微调 Devstral

与包括 Mistral Small 3.1 在内的标准 Mistral 模型一样,Unsloth 支持 Devstral 微调。训练速度快 2 倍,使用的 VRAM 减少 70%,并支持长 8 倍的上下文长度。Devstral 在 24GB VRAM 的 L4 GPU 上也能轻松运行。

遗憾的是,Devstral 的内存需求略微超出 16GB VRAM 的限制,因此目前无法在 Google Colab 上免费微调。不过,你 可以 使用我们的 Kaggle notebook免费微调该模型,它提供双 GPU 访问。只需将 notebook 中的 Magistral 模型名称改为 Devstral 模型即可。

如果你使用的是旧版 Unsloth 和/或在本地微调,请安装最新版本的 Unsloth:

最后更新于

这有帮助吗?