docker如何使用 Docker 在本地运行 LLM:分步指南

了解如何在本地设备上使用 Docker 与 Unsloth 运行大型语言模型 (LLM)。

您现在可以运行任何模型,包括 Unsloth 动态 GGUFs,在 Mac、Windows 或 Linux 上只需一行代码或 无需代码 即可。我们与 Docker 合作以简化模型部署,Unsloth 现在为 Docker 上的大多数 GGUF 模型提供支持。

在开始之前,请务必查看 硬件要求我们的提示 以在您的设备上运行 LLM 时优化性能。

Docker 终端教程Docker 无代码教程

要开始,请运行 OpenAI gpt-oss 只需一条命令:

docker model run ai/gpt-oss:20B

或者要运行特定的 Unsloth 模型 / 来自 Hugging Face 的量化:

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16
circle-check

为什么选择 Unsloth + Docker?

我们与诸如 Google Gemma 的模型实验室合作修复模型错误并提升准确性。我们的动态 GGUFs 持续优于其他量化方法,为您提供高准确性且高效的推理。

如果您使用 Docker,可以零配置即时运行模型。Docker 使用 Docker Model Runnerarrow-up-right (DMR),它让您像运行容器一样轻松运行 LLM,且没有依赖问题。DMR 使用 Unsloth 模型和 llama.cpp 在底层实现快速、高效、最新的推理。

⚙️ 硬件信息 + 性能

为了获得最佳性能,建议您的 VRAM + RAM 总和至少等于您下载的量化模型的大小。如果更小,模型仍可运行,但会明显更慢。

确保您的设备也有足够的磁盘空间来存储模型。如果模型仅勉强放入内存,则根据模型大小,您可以预期大约 ~5 令牌/秒 的速度。

拥有额外的 RAM/VRAM 会提升推理速度,额外的 VRAM 将带来最大性能提升(前提是整个模型可以放入其中)

circle-info

示例: 如果您正在下载 gpt-oss-20b (F16),模型为 13.8 GB,请确保您的磁盘空间和 RAM + VRAM > 13.8 GB。

量化建议:

  • 对于小于 30B 参数的模型,至少使用 4 位(Q4)。

  • 对于 70B 参数或更大的模型,最低使用 2 位量化(例如 UD_Q2_K_XL)。

⚡ 逐步教程

以下是 两种方法 使用 Docker 运行模型:一种使用 终端,另一种使用 Docker Desktop 无需代码:

方法 #1:Docker 终端

1

安装 Docker

Docker Model Runner 已经可用于 两者 Docker Desktoparrow-up-rightDocker CEarrow-up-right.

2

运行模型

选择要运行的模型,然后通过终端运行命令。

  • 浏览可在以下位置获得的受信任模型经核实的目录 Docker Hubarrow-up-rightUnsloth 在 Hugging Face 的arrow-up-right 页面。

  • 到终端运行命令。要验证您是否已安装 docker ,您可以输入 'docker' 并回车。

  • Docker Hub 默认为运行 Unsloth 动态 4 位,但您可以选择自己的量化级别(见步骤 #3)。

例如,要运行 OpenAI gpt-oss-20b 只需一条命令:

或者要运行特定的 Unsloth 来自 Hugging Face 的 gpt-oss 量化:

通过 CLI 运行 gpt-oss-20b 应该是这样的:

来自 Docker Hub 的 gpt-oss-20b
使用 Unsloth 的 UD-Q8_K_XL 量化的 gpt-oss-20b
3

要运行特定的量化级别:

如果您想运行模型的特定量化,请在模型后附加 : 和量化名称(例如, Q4 用于 Docker 或 UD-Q4_K_XL)。您可以在每个模型的 Docker Hub 页面上查看所有可用的量化。例如,查看 gpt-oss 列出的量化 这里arrow-up-right.

同样适用于 Hugging Face 上的 Unsloth 量化:访问该 模型的 HF 页面arrow-up-right,选择一个量化,然后运行类似的命令: docker model run hf.co/unsloth/gpt-oss-20b-GGUF:Q2_K_L

Hugging Face

1

方法 #2:Docker Desktop(无代码)

Docker Model Runner 已经可用于 Docker Desktoparrow-up-right.

  1. 安装 Docker Desktop

  2. 选择要运行的模型,打开 Docker Desktop,然后点击模型选项卡。

在以下位置浏览经过验证的模型目录 Docker Hubarrow-up-right.

#1. 点击“Models”选项卡然后“Add models +”
#2. 搜索您想要的模型。
2

拉取模型

点击您想运行的模型以查看可用的量化选项。

  • 量化范围从 1 到 16 位。对于小于 30B 参数的模型,至少使用 4 位(Q4).

  • 选择适合您硬件的大小:理想情况下,您的统一内存、RAM 或 VRAM 总和应等于或大于模型大小。例如,11GB 的模型在 12GB 统一内存上运行良好。

#3. 选择您要拉取的量化。
#4. 等待模型下载完成,然后运行它。
3

运行模型

在“Ask a question”框中输入任意提示,然后像使用 ChatGPT 一样使用 LLM。

运行 Qwen3-4B 的示例 UD-Q8_K_XL

要运行最新模型:

只要新模型被 llama.cppvllm 支持并且可在 Docker Hub 上获得,您就可以在 Docker 上运行任何新模型。

什么是 Docker Model Runner?

Docker Model Runner(DMR)是一个开源工具,使您可以像运行容器一样轻松拉取和运行 AI 模型。GitHub: https://github.com/docker/model-runnerarrow-up-right

它为模型提供一致的运行时,类似于 Docker 标准化应用部署的方式。在底层,它使用优化的后端(例如 llama.cpp)以实现您机器上的顺畅、硬件高效的推理。

无论您是研究人员、开发者还是业余爱好者,您现在可以:

  • 在本地几秒钟内运行开源模型。

  • 避免依赖地狱,一切都由 Docker 处理。

  • 轻松共享并复现模型设置。

最后更新于

这有帮助吗?