Mistral 3.5 - 如何在本地运行
Mistral 3.5 模型指南,用于在你的设备上本地运行或微调
Mistral 发布了 Mistral-Medium-3.5-128B,这是他们新的稠密型 128B 参数、多模态、混合推理模型。它支持文本和图像输入、文本输出、256K 上下文窗口,并且在推理、编码、长上下文、工具使用、智能体工作流以及多模态文档/图像理解方面表现出色。
Mistral Medium 3.5 为其 5 倍大小的模型提供了极具竞争力的性能。可在约 64GB RAM 上本地运行。GGUF: Mistral-Medium-3.5-128B-GGUF
2026 年 5 月 1 日更新: 我们与 Mistral 合作修复了影响某些实现的 Mistral Medium 3.5 推理问题,并发布了包含该修复的更新版 GGUF(与 Unsloth 无关 或我们的量化版本)。该问题是由 YaRN 解析怪癖引起的,影响了多个实现,包括 transformers 和 llama.cpp。修改 mscale_all_dim 从 1 到 0 后已解决。我们还修复了 mmproj 文件未正确生成的问题。
Mistral 现在已经将我们的修复推送到他们的官方仓库!
使用指南
GGUF 的视觉功能目前已经支持。后续还会提供支持。
表:Mistral Medium 3.5 推荐硬件需求。单位为总内存:RAM + VRAM,或统一内存。
Medium 3.5 128B
64 GB
80 GB
128-170 GB
你的可用总内存应至少超过你下载的量化模型大小。否则,llama.cpp 仍可通过部分 RAM / 磁盘卸载运行,但生成速度会更慢。对于长上下文、更大的批量、重工具的智能体运行以及图像提示词,你还需要更多内存。
推荐设置
使用 Mistral 推荐的推理设置:
reasoning_effort="none"→ 快速即时回复、聊天、信息提取和简单指令。reasoning_effort="high"→ 推理模式,推荐用于复杂提示、编码、研究、数学和智能体用法。
推荐的采样默认值:
使用
temperature = 0.7用于reasoning_effort="high".使用
temperature = 0.0到0.7用于reasoning_effort="none",具体取决于任务。保持重复惩罚和存在惩罚关闭,或者设为
1.0,除非你看到循环输出。最大上下文长度为
262,144
推理模式
Mistral Medium 3.5 支持即时指令模式和带有 'high' 选项的推理模式。
要为 llama.cpp / llama-server 启用高推理:
要禁用推理:
如果你使用的是 Windows PowerShell,请使用:
运行 Mistral 3.5 教程
由于 Mistral Medium 3.5 是一个稠密型 128B 模型,本地推理建议从 Dynamic 4-bit GGUF 开始。GGUF: unsloth/Mistral-Medium-3.5-128B-GGUF
在 Unsloth Studio 中运行在 llama.cpp 中运行
目前没有任何多模态/视觉 GGUF 可在 Ollama 中工作,因为它们使用单独的 mmproj 视觉文件。请使用兼容 llama.cpp 的后端。
请不要使用 CUDA 13.2 否则你可能会得到乱码输出。NVIDIA 正在修复。
🦥 Unsloth Studio 指南
在本教程中,我们将使用 Unsloth Studio,这是我们用于运行和训练 LLM 的新 Web UI。使用 Unsloth Studio,你可以在本地于 音频、图像和文本上运行模型,支持 Mac、Windows和 Linux,并且:

搜索并下载 Mistral Medium 3.5
首次启动时,你需要创建一个密码来保护账户安全,并在以后重新登录。然后前往 Studio Chat 选项卡,在搜索栏中搜索 Mistral 3.5,并下载你想要的模型和量化版本。
运行 Mistral 3.5
在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。
如需更多信息,你可以查看我们的 Unsloth Studio 推理指南.
🦙 Llama.cpp 指南
对于本指南,我们将使用 Unsloth Dynamic 4-bit 版本的 Mistral Medium 3.5。参见: unsloth/Mistral-Medium-3.5-128B-GGUF.
对于这些教程,我们将使用 llama.cpp 进行快速本地推理,尤其是在你拥有 CPU 或高内存统一内存机器时。
1. 构建 llama.cpp
获取最新版本 llama.cpp 在 GitHub 上。更改 -DGGML_CUDA=ON 到 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想使用 CPU 推理。对于 Apple Mac / Metal 设备,请设置 -DGGML_CUDA=OFF;Metal 支持默认开启。
2. 直接从 Hugging Face 运行
用于高推理模式:
3. 手动下载模型
安装之后 huggingface_hub 和 hf_transfer:
如果下载卡住,请设置:
4. 运行本地 GGUF
如果包含多模态投影器 GGUF,请使用:
Llama-server 部署
要在 llama-server 上部署 Mistral Medium 3.5,请使用:
用于推理模式:
如果你使用的是 Windows PowerShell,请使用:
你可以向 llama-server 发送兼容 OpenAI 的请求来 ping 它:
Mistral 3.5 最佳实践
提示示例
简单推理提示
使用 reasoning_effort="high" 用于这种风格的提示。
OCR / 文档提示
对于 OCR 和文档提取,请先放入图像,并要求结构化输出。
多模态比较提示
编码智能体提示
使用 reasoning_effort="high" 以及用于代码库探索的工具调用。
JSON / 函数调用提示
基准测试


最后更新于
这有帮助吗?


