For the complete documentation index, see llms.txt. This page is also available as Markdown.

Mistral 3.5 - 如何在本地运行

Mistral 3.5 模型指南,用于在你的设备上本地运行或微调

Mistral 发布了 Mistral-Medium-3.5-128B,这是他们新的稠密型 128B 参数、多模态、混合推理模型。它支持文本和图像输入、文本输出、256K 上下文窗口,并且在推理、编码、长上下文、工具使用、智能体工作流以及多模态文档/图像理解方面表现出色。

Mistral Medium 3.5 为其 5 倍大小的模型提供了极具竞争力的性能。可在约 64GB RAM 上本地运行。GGUF: Mistral-Medium-3.5-128B-GGUF

使用指南

GGUF 的视觉功能目前已经支持。后续还会提供支持。

表:Mistral Medium 3.5 推荐硬件需求。单位为总内存:RAM + VRAM,或统一内存。

Mistral 3.5
3 位
4 位
8 位

Medium 3.5 128B

64 GB

80 GB

128-170 GB

你的可用总内存应至少超过你下载的量化模型大小。否则,llama.cpp 仍可通过部分 RAM / 磁盘卸载运行,但生成速度会更慢。对于长上下文、更大的批量、重工具的智能体运行以及图像提示词,你还需要更多内存。

推荐设置

使用 Mistral 推荐的推理设置:

  • reasoning_effort="none" → 快速即时回复、聊天、信息提取和简单指令。

  • reasoning_effort="high" → 推理模式,推荐用于复杂提示、编码、研究、数学和智能体用法。

推荐的采样默认值:

  • 使用 temperature = 0.7 用于 reasoning_effort="high".

  • 使用 temperature = 0.00.7 用于 reasoning_effort="none",具体取决于任务。

  • 保持重复惩罚和存在惩罚关闭,或者设为 1.0 ,除非你看到循环输出。

  • 最大上下文长度为 262,144

推理模式

Mistral Medium 3.5 支持即时指令模式和带有 'high' 选项的推理模式。

要为 llama.cpp / llama-server 启用高推理:

要禁用推理:

如果你使用的是 Windows PowerShell,请使用:

运行 Mistral 3.5 教程

由于 Mistral Medium 3.5 是一个稠密型 128B 模型,本地推理建议从 Dynamic 4-bit GGUF 开始。GGUF: unsloth/Mistral-Medium-3.5-128B-GGUF

在 Unsloth Studio 中运行在 llama.cpp 中运行

🦥 Unsloth Studio 指南

在本教程中,我们将使用 Unsloth Studio,这是我们用于运行和训练 LLM 的新 Web UI。使用 Unsloth Studio,你可以在本地于 音频、图像和文本上运行模型,支持 Mac、Windows和 Linux,并且:

1

安装 Unsloth

MacOS、Linux、WSL:

Windows PowerShell:

2

设置 Unsloth Studio(仅需一次)

设置过程会自动安装 Node.js(通过 nvm)、构建前端、安装所有 Python 依赖,并构建带 CUDA 支持的 llama.cpp。

WSL 用户: 系统会提示你输入 sudo 密码以安装构建依赖(cmake, git, libcurl4-openssl-dev).

3

启动 Unsloth

MacOS、Linux、WSL:

Windows PowerShell:

然后在浏览器中打开 http://localhost:8888

4

搜索并下载 Mistral Medium 3.5

首次启动时,你需要创建一个密码来保护账户安全,并在以后重新登录。然后前往 Studio Chat 选项卡,在搜索栏中搜索 Mistral 3.5,并下载你想要的模型和量化版本。

5

运行 Mistral 3.5

在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。

如需更多信息,你可以查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 指南

对于本指南,我们将使用 Unsloth Dynamic 4-bit 版本的 Mistral Medium 3.5。参见: unsloth/Mistral-Medium-3.5-128B-GGUF.

对于这些教程,我们将使用 llama.cpp 进行快速本地推理,尤其是在你拥有 CPU 或高内存统一内存机器时。

1. 构建 llama.cpp

获取最新版本 llama.cpp 在 GitHub 上。更改 -DGGML_CUDA=ON-DGGML_CUDA=OFF 如果你没有 GPU,或者只想使用 CPU 推理。对于 Apple Mac / Metal 设备,请设置 -DGGML_CUDA=OFF;Metal 支持默认开启。

2. 直接从 Hugging Face 运行

用于高推理模式:

3. 手动下载模型

安装之后 huggingface_hubhf_transfer:

如果下载卡住,请设置:

4. 运行本地 GGUF

如果包含多模态投影器 GGUF,请使用:

Llama-server 部署

要在 llama-server 上部署 Mistral Medium 3.5,请使用:

用于推理模式:

如果你使用的是 Windows PowerShell,请使用:

你可以向 llama-server 发送兼容 OpenAI 的请求来 ping 它:

Mistral 3.5 最佳实践

提示示例

简单推理提示

使用 reasoning_effort="high" 用于这种风格的提示。

OCR / 文档提示

对于 OCR 和文档提取,请先放入图像,并要求结构化输出。

多模态比较提示

编码智能体提示

使用 reasoning_effort="high" 以及用于代码库探索的工具调用。

JSON / 函数调用提示

基准测试

最后更新于

这有帮助吗?