📙Devstral:如何运行与微调
运行并微调 Mistral Devstral 1.1,包括 Small-2507 和 2505。
Devstral-Small-2507 (Devstral 1.1)是 Mistral 的新型代理式大型语言模型,面向软件工程。它擅长调用工具、探索代码库并为编码代理提供动力。Mistral AI 在 2025 年 5 月发布了最初的 2505 版本。
微调自 Mistral-Small-3.1,Devstral 支持 128k 上下文窗口。Devstral Small 1.1 性能有所提升,在 SWE-bench 验证上取得了 53.6% 的分数,使其(2025 年 7 月 10 日)成为该基准上的第 #1 开源模型。
Unsloth 的 Devstral 1.1 GGUF 包含额外的 工具调用支持 和 聊天模板修复。Devstral 1.1 仍然能很好地与 OpenHands 配合使用,但现在对其他提示和编码环境的泛化能力更强。
作为纯文本模型,Devstral 的视觉编码器在微调前已被移除。我们为模型添加了 可选的视觉支持 。
我们还在幕后与 Mistral 合作,帮助调试、测试并修正可能的错误和问题!请确保 下载 Mistral 的官方发布或 Unsloth 的 GGUF / 动态量化文件以获得 正确的实现 (即正确的系统提示、正确的聊天模板等)
请在 --jinja 中使用以启用系统提示!
所有 Devstral 上传均采用我们的 Unsloth Dynamic 2.0 方法论,在 5-shot MMLU 和 KL 散度基准上提供最佳性能。这意味着,你可以在精度损失最小的情况下运行并微调量化的 Mistral 大型语言模型!
Devstral - Unsloth 动态 量化:
🖥️ 运行 Devstral
⚙️ 官方推荐设置
根据 Mistral AI 的建议,以下是推理的推荐设置:
温度在 0.0 到 0.15 之间
Min_P 为 0.01(可选,但 0.01 效果良好,llama.cpp 默认值为 0.1)
使用
--jinja以启用系统提示。
建议使用系统提示,并且该提示是基于 Open Hand 的系统提示的派生。完整系统提示已提供 这里.
我们的动态上传文件名中带有 'UD' 前缀。没有该前缀的不是动态版本,但仍然使用我们的校准数据集。
🦙 教程:如何在 Ollama 中运行 Devstral
安装
ollama如果你还没有安装!
使用我们的动态量化运行模型。注意如果失败你可以在另一个终端调用
ollama serve &!我们在params中!中包含所有建议的参数(温度等)。另外 Devstral 支持 128K 上下文长度,所以最好启用 KV 缓存量化。我们使用 8bit 量化来节省 50% 的内存使用。你也可以尝试
"q4_0"
📖 教程:如何在 llama.cpp 中运行 Devstral
获取最新的
llama.cpp在 此处的 GitHub。您也可以按照下面的构建说明进行。若-DGGML_CUDA=ON更改为-DGGML_CUDA=OFF如果您没有 GPU 或仅想要在 CPU 上进行推理。 对于 Apple Mac / Metal 设备,设置-DGGML_CUDA=OFF然后照常继续 - Metal 支持默认启用。
如果您想直接使用
llama.cpp来加载模型,你可以如下操作:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这与ollama run
或 通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer之后)。你可以选择 Q4_K_M,或其他量化版本(如 BF16 全精度)。
运行模型。
编辑
--threads -1以使用最大 CPU 线程,--ctx-size 131072用于上下文长度(Devstral 支持 128K 上下文长度!),--n-gpu-layers 99用于 GPU 卸载的层数。若你的 GPU 出现内存不足,尝试调整此值。如果仅使用 CPU 推理,则移除该项。我们还对 K 缓存使用 8bit 量化以减少内存使用。用于对话模式:
用于非对话模式以测试我们的 Flappy Bird 提示:
记得移除 <bos>,因为 Devstral 会自动添加一个 <bos>!另外请使用 --jinja 以启用系统提示!
👀实验性视觉支持
Xuan-Son 在 Hugging Face 的展示中显示 GGUF 仓库 展示了如何将 Mistral 3.1 Instruct 的视觉编码器“移植”到 Devstral 2507 上。我们还上传了 mmproj 文件,允许你使用以下内容:
例如:


🦥 使用 Unsloth 微调 Devstral
与包括 Mistral Small 3.1 在内的标准 Mistral 模型一样,Unsloth 支持对 Devstral 进行微调。训练速度提升 2 倍,使用 70% 更少的显存并支持 8 倍更长的上下文长度。Devstral 可舒适地适配 24GB VRAM 的 L4 GPU。
不幸的是,Devstral 略微超过 16GB VRAM 的内存限制,因此目前无法在 Google Colab 上免费微调。然而,你可以 可以 使用我们的免费 Kaggle notebook,它提供对双 GPU 的访问。只需将 notebook 中的 Magistral 模型名称改为 Devstral 模型。
如果你使用的是旧版本 Unsloth 和/或在本地进行微调,请安装最新版本的 Unsloth:
最后更新于
这有帮助吗?

