将模型部署到 LM Studio

将模型保存为 GGUF,以便你可以将其运行并部署到 LM Studio

你可以直接在 LM Studio 中运行并部署你微调后的 LLM。 LM Studio 可轻松运行和部署 GGUF 模型(llama.cpp 格式)。

你可以使用我们的 LM Studio 笔记本 或按照以下说明进行:

  1. 将你的 Unsloth 微调模型导出为 .gguf

  2. 将 GGUF 导入 / 下载到 LM Studio

  3. 在 Chat 中加载它 (或通过兼容 OpenAI 的本地 API 运行它)

在 LM Studio 中微调之前
在 LM Studio 中微调之后

1) 导出为 GGUF(来自 Unsloth)

如果你已经导出了一个 .gguf,请跳到 导入到 LM Studio.

q4_k_m 通常是本地运行的默认选项。

q8_0 是接近全精度质量的最佳选择。

f16 体积最大 / 最慢,但保留原始未量化精度。

2) 将 GGUF 导入 LM Studio

LM Studio 提供一个名为 lms 的 CLI,它可以将本地 .gguf 导入到 LM Studio 的模型文件夹中。

导入一个 GGUF 文件:

保留原始文件(复制而不是移动):

点击查看更多可自定义的私有设置

将模型保留在原位置(符号链接):

这对于存储在专用硬盘上的大型模型很有帮助。

跳过提示,自己选择目标命名空间:

试运行(显示将会发生什么):

导入后,模型应在 LM Studio 的以下位置显示: 我的模型.

3) 在 LM Studio 中加载并聊天

  1. 打开 LM Studio → Chat

  2. 打开 模型加载器

  3. 选择你导入的模型

  4. (可选)调整加载设置(GPU 卸载、上下文长度等)

  5. 在界面中正常聊天

4) 将你的微调模型作为本地 API 提供服务(兼容 OpenAI)

LM Studio 可以通过兼容 OpenAI 的 API 为你已加载的模型提供服务(对 Open WebUI、自定义代理、脚本等应用很方便)。

  1. 在 LM Studio 中加载你的模型

  2. 转到 Developer 选项卡

  3. 启动本地服务器

  4. 使用显示的基础 URL(默认通常是 http://localhost:1234/v1)

快速测试:列出模型

Python 示例(OpenAI SDK):

cURL 示例(聊天补全):

调试提示: 如果你正在排查格式 / 模板问题,可以检查 原始 LM Studio 发送给模型的提示词,方法是运行: lms log stream

故障排除

模型在 Unsloth 中运行正常,但 LM Studio 的输出是乱码 / 重复

这几乎总是 提示模板 / 聊天模板不匹配.

LM Studio 会在可能的情况下 自动检测 GGUF 元数据中的提示模板,但自定义或标记不正确的模型可能需要手动覆盖。

修复方法:

  1. 进入 我的模型 → 点击模型旁边的齿轮 ⚙️

  2. 找到 Prompt Template 并将其设置为与你训练时使用的模板一致

  3. 或者,在 Chat 侧边栏中:启用 Prompt Template 框(你可以强制始终显示它)

LM Studio 没有在“我的模型”中显示我的模型

  • 优先使用 lms import /path/to/model.gguf

  • 或者确认文件位于正确的文件夹结构中: ~/.lmstudio/models/publisher/model/model-file.gguf

OOM / 性能缓慢

  • 使用更小的量化版本(例如: Q4_K_M)

  • 减少上下文长度

  • 调整 GPU 卸载(LM Studio 的“每个模型默认值”/加载设置)


更多资源

最后更新于

这有帮助吗?