将模型部署到 LM Studio

将模型保存为 GGUF,以便您可以将其运行并部署到 LM Studio

您可以直接在 LM Studio 中运行并部署您微调的 LLM。 LM Studioarrow-up-right 实现了轻松运行和部署 GGUF 模型(llama.cpp 格式)。

您可以使用我们的 LM Studio 笔记本arrow-up-right 或按照下面的说明:

  1. 将您在 Unsloth 上微调的模型导出为 .gguf

  2. 将 GGUF 导入 / 下载到 LM Studio

  3. 在 Chat 中加载它 (或在 OpenAI 兼容的本地 API 后面运行)

在 LM Studio 中微调之前
在 LM Studio 中微调之后

1) 导出为 GGUF(来自 Unsloth)

如果您已经导出了一个 .gguf,请跳到 导入到 LM Studio.

circle-info

q4_k_m 通常是本地运行的默认设置。

q8_0 是接近全精度质量的最佳选择。

f16 体积最大 / 最慢,但保持原始未量化的精度。

2) 将 GGUF 导入到 LM Studio

LM Studio 提供了一个名为 lms 的 CLI,可将本地 .gguf 导入到 LM Studio 的 models 文件夹中。

导入 GGUF 文件:

保留原始文件(复制而不是移动):

chevron-right点击以获取更多可自定义的私有设置hashtag

将模型保持在原处(创建符号链接):

这对存放在专用硬盘上的大型模型很有帮助。

跳过提示并自行选择目标命名空间:

模拟运行(显示将发生的操作):

导入后,模型应出现在 LM Studio 的 我的模型.

3) 在 LM Studio 中加载并聊天

  1. 打开 LM Studio → 聊天

  2. 打开 模型加载器

  3. 选择您导入的模型

  4. (可选)调整加载设置(GPU 卸载、上下文长度等)

  5. 在界面中正常聊天

4) 将您微调的模型作为本地 API 提供服务(OpenAI 兼容)

LM Studio 可以将您加载的模型置于 OpenAI 兼容的 API 后面提供服务(方便用于 Open WebUI、定制代理、脚本等应用)。

  1. 在 LM Studio 中加载您的模型

  2. 转到 开发者 选项卡

  3. 启动本地服务器

  4. 使用显示的基础 URL(默认通常是 http://localhost:1234/v1)

快速测试:列出模型

Python 示例(OpenAI SDK):

cURL 示例(聊天补全):

circle-info

调试提示: 如果您在排查格式/模板问题时,可以检查 原始 LM Studio 发送给模型的提示,通过运行: lms log stream

故障排除

模型在 Unsloth 中运行,但 LM Studio 输出是乱码 / 重复

这几乎总是一个 提示模板 / 聊天模板不匹配.

LM Studio 将 自动检测 在可能的情况下从 GGUF 元数据中检测提示模板,但自定义或标记不正确的模型可能需要手动覆盖。

修复:

  1. 转到 我的模型 → 点击您模型旁的齿轮 ⚙️

  2. 找到 提示模板 并将其设置为与您训练时使用的模板相匹配

  3. 或者,在聊天侧栏:启用 提示模板 复选框(您可以强制其始终显示)

LM Studio 在“我的模型”中没有显示我的模型

  • 更喜欢 lms import /path/to/model.gguf

  • 或确认文件位于正确的文件夹结构: ~/.lmstudio/models/publisher/model/model-file.gguf

OOM / 性能缓慢

  • 使用更小的量化(例如: Q4_K_M)

  • 减少上下文长度

  • 调整 GPU 卸载(LM Studio 的“每模型默认值” / 加载设置)


更多资源

最后更新于

这有帮助吗?