📙Devstral 2 - 如何运行指南

本地运行 Mistral Devstral 2 模型的指南:123B-Instruct-2512 与 Small-2-24B-Instruct-2512。

Devstral 2 是 Mistral 面向软件工程的新型编码与代理大语言模型,可用的 24B123B 规格。123B 模型在 SWE-bench、编码、工具调用和代理用例中达到 SOTA。24B 模型可运行于 25GB RAM/VRAM,123B 可运行于 128GB。

circle-check

Devstral 2 支持视觉功能,具有 256k 上下文窗口并且使用与 Ministral 3相同的架构。您现在可以运行并 微调 这两个模型(使用 Unsloth)在本地运行。

所有 Devstral 2 上传均使用我们的 Unsloth Dynamic 2.0 方法论,在 Aider Polyglot 和 5-shot MMLU 基准上提供最佳性能。

Devstral-Small-2-24BDevstral-2-123B

Devstral 2 - Unsloth Dynamic GGUF 文件:

🖥️ 运行 Devstral 2

请参阅我们逐步指南以运行 Devstral 24B 以及大型 Devstral 123B 模型。两个模型都支持视觉功能,但目前 视觉尚不受支持 在 llama.cpp 中

⚙️ 使用指南

以下是推理的推荐设置:

  • Temperature ~0.15

  • Min_P 为 0.01(可选,但 0.01 效果良好,llama.cpp 默认为 0.1)

  • 使用 --jinja 以启用系统提示。

  • 最大上下文长度 = 262,144

  • 推荐最小上下文:16,384

  • 请安装最新的 llama.cpp,因为一项 2025年12月13日 的 pull requestarrow-up-right 修复了若干问题。

🎩Devstral-Small-2-24B

全精度(Q8)Devstral-Small-2-24B GGUF 将可装入 25GB RAM/VRAM。当前仅限文本。

✨ 在 llama.cpp 中运行 Devstral-Small-2-24B-Instruct-2512

  1. 获取最新的 llama.cppGitHub(此处)arrow-up-right。您也可以按照下面的构建说明。若没有 GPU 或仅想用 CPU 推理,请将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF

  1. 如果您想直接使用 llama.cpp 来加载模型,您可以如下操作:(:Q4_K_XL) 是量化类型。您也可以直接从 Hugging Face 拉取:

  1. 通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。您可以选择 UD_Q4_K_XL 或其它量化版本。

  1. 以对话模式运行模型:

👀Devstral 与视觉

  1. 要玩转 Devstral 的图像能力,首先让我们下载如下图片 FP8 强化学习 与 Unslotharrow-up-right 如下:

  2. 我们通过以下方式获取该图片 wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.png 该命令会将图片保存为 "unsloth_fp8.png"

  3. 然后通过以下命令将图片加载进来 /image unsloth_fp8.png 在模型加载后,如下所示:

  4. 然后我们提示它 描述这张图片 并得到如下:

🚚Devstral-2-123B

全精度(Q8)Devstral-Small-2-123B GGUF 可装入 128GB RAM/VRAM。当前仅限文本。

运行 Devstral-2-123B-Instruct-2512 教程

  1. 获取最新的 llama.cppGitHub(此处)arrow-up-right。您也可以按照下面的构建说明。若没有 GPU 或仅想用 CPU 推理,请将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF

  1. 您可以直接通过 HuggingFace 拉取:

  1. 通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。您可以选择 UD_Q4_K_XL 或其它量化版本。

  1. 以对话模式运行模型:

🦥 使用 Unsloth 对 Devstral 2 进行微调

就像 Ministral 3一样,Unsloth 支持对 Devstral 2 的微调。训练速度提高 2 倍,使用 VRAM 减少 70%,并支持 8 倍更长的上下文长度。Devstral 2 可以在 24GB VRAM 的 L4 GPU 上轻松运行。

不幸的是,Devstral 2 略微超出 16GB VRAM 的内存限制,因此目前无法在 Google Colab 上免费微调。不过,您 可以 使用我们的免费 Kaggle notebookarrow-up-right来免费微调,该笔记本提供双 GPU 访问。只需将笔记本中的 Magistral 模型名称更改为 unsloth/Devstral-Small-2-24B-Instruct-2512 模型即可。

circle-check

Devstral 数独 GRPO 强化学习笔记本

😎Llama-server 服务与部署

要将 Devstral 2 部署到生产环境,我们使用 llama-server 在新终端(例如通过 tmux)中,通过以下方式部署模型:

运行上述命令后,您将得到:

然后在新终端中,执行 pip install openai,然后执行:

这将直接打印 4。

🧰使用 Devstral 2 的工具调用 教程

在遵循 Devstral 2 之后,我们可以加载一些工具并观看 Devstral 的实际应用!让我们制作一些工具——将它们复制并在 Python 中执行。

然后我们从一组可能的消息中随机选择一个简单问题来测试模型:

接着我们使用下面的函数(复制粘贴并执行),它们会自动解析函数调用——Devstral 2 可能会同时发起多个调用!

大约 1 分钟后,我们得到:

或以 JSON 形式:

最后更新于

这有帮助吗?