如何使用 Docker 在本地运行 LLM：分步指南

了解如何在本地设备上使用 Docker 与 Unsloth 运行大型语言模型（LLM）。

您现在可以运行任何模型，包括 Unsloth 动态 GGUFs，在 Mac、Windows 或 Linux 上只需一行代码或 无需代码 即可。我们与 Docker 合作以简化模型部署，Unsloth 现在为 Docker 上的大多数 GGUF 模型提供支持。

在开始之前，请务必查看硬件要求和我们的提示以在您的设备上运行 LLM 时优化性能。

Docker 终端教程 Docker 无代码教程

要开始，请运行 OpenAI gpt-oss 只需一条命令：

docker model run ai/gpt-oss:20B

或者要运行特定的 Unsloth 模型 / 来自 Hugging Face 的量化：

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16

您不需要 Docker Desktop，Docker CE 就足以运行模型。

为什么选择 Unsloth + Docker？

我们与诸如 Google Gemma 的模型实验室合作修复模型错误并提升准确性。我们的动态 GGUFs 持续优于其他量化方法，为您提供高准确性且高效的推理。

如果您使用 Docker，可以零配置即时运行模型。Docker 使用 Docker Model Runner （DMR），它让您像运行容器一样轻松运行 LLM，且没有依赖问题。DMR 使用 Unsloth 模型和 llama.cpp 在底层实现快速、高效、最新的推理。

⚙️ 硬件信息 + 性能

为了获得最佳性能，建议您的 VRAM + RAM 总和至少等于您下载的量化模型的大小。如果更小，模型仍可运行，但会明显更慢。

确保您的设备也有足够的磁盘空间来存储模型。如果模型仅勉强放入内存，则根据模型大小，您可以预期大约 ~5 令牌/秒的速度。

拥有额外的 RAM/VRAM 会提升推理速度，额外的 VRAM 将带来最大性能提升（前提是整个模型可以放入其中）

示例： 如果您正在下载 gpt-oss-20b (F16)，模型为 13.8 GB，请确保您的磁盘空间和 RAM + VRAM > 13.8 GB。

量化建议：

对于小于 30B 参数的模型，至少使用 4 位（Q4）。
对于 70B 参数或更大的模型，最低使用 2 位量化（例如 UD_Q2_K_XL）。

⚡ 逐步教程

以下是 两种方法 使用 Docker 运行模型：一种使用终端，另一种使用 Docker Desktop 无需代码：

方法 #1：Docker 终端

安装 Docker

Docker Model Runner 已经可用于两者 Docker Desktop 和 Docker CE.

运行模型

选择要运行的模型，然后通过终端运行命令。

浏览可在以下位置获得的受信任模型经核实的目录 Docker Hub 或 Unsloth 在 Hugging Face 的页面。
到终端运行命令。要验证您是否已安装 docker ，您可以输入 'docker' 并回车。
Docker Hub 默认为运行 Unsloth 动态 4 位，但您可以选择自己的量化级别（见步骤 #3）。

例如，要运行 OpenAI gpt-oss-20b 只需一条命令：

docker model run ai/gpt-oss:20B

或者要运行特定的 Unsloth 来自 Hugging Face 的 gpt-oss 量化：

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:UD-Q8_K_XL

通过 CLI 运行 gpt-oss-20b 应该是这样的：

要运行特定的量化级别：

如果您想运行模型的特定量化，请在模型后附加 : 和量化名称（例如， Q4 用于 Docker 或 UD-Q4_K_XL）。您可以在每个模型的 Docker Hub 页面上查看所有可用的量化。例如，查看 gpt-oss 列出的量化这里.

同样适用于 Hugging Face 上的 Unsloth 量化：访问该模型的 HF 页面，选择一个量化，然后运行类似的命令： docker model run hf.co/unsloth/gpt-oss-20b-GGUF:Q2_K_L

Hugging Face

方法 #2：Docker Desktop（无代码）

Docker Model Runner 已经可用于 Docker Desktop.

安装 Docker Desktop
选择要运行的模型，打开 Docker Desktop，然后点击模型选项卡。

在以下位置浏览经过验证的模型目录 Docker Hub.

拉取模型

点击您想运行的模型以查看可用的量化选项。

量化范围从 1 到 16 位。对于小于 30B 参数的模型，至少使用 4 位（Q4).
选择适合您硬件的大小：理想情况下，您的统一内存、RAM 或 VRAM 总和应等于或大于模型大小。例如，11GB 的模型在 12GB 统一内存上运行良好。

运行模型

在“Ask a question”框中输入任意提示，然后像使用 ChatGPT 一样使用 LLM。

要运行最新模型：

只要新模型被 llama.cpp 或 vllm 支持并且可在 Docker Hub 上获得，您就可以在 Docker 上运行任何新模型。

什么是 Docker Model Runner？

Docker Model Runner（DMR）是一个开源工具，使您可以像运行容器一样轻松拉取和运行 AI 模型。GitHub： https://github.com/docker/model-runner

它为模型提供一致的运行时，类似于 Docker 标准化应用部署的方式。在底层，它使用优化的后端（例如 llama.cpp）以实现您机器上的顺畅、硬件高效的推理。

无论您是研究人员、开发者还是业余爱好者，您现在可以：

在本地几秒钟内运行开源模型。
避免依赖地狱，一切都由 Docker 处理。
轻松共享并复现模型设置。

上一页Devstral 下一页DeepSeek-V3-0324

最后更新于3个月前

这有帮助吗？

hashtag为什么选择 Unsloth + Docker？

hashtag⚙️ 硬件信息 + 性能

hashtag⚡ 逐步教程

hashtag方法 #1：Docker 终端

hashtag安装 Docker

hashtag运行模型

hashtag要运行特定的量化级别：

hashtagHugging Face

hashtag方法 #2：Docker Desktop（无代码）

hashtag拉取模型

hashtag运行模型

hashtag要运行最新模型：

hashtag什么是 Docker Model Runner？

为什么选择 Unsloth + Docker？

⚙️ 硬件信息 + 性能

⚡ 逐步教程

方法 #1：Docker 终端

安装 Docker

运行模型

要运行特定的量化级别：

Hugging Face

方法 #2：Docker Desktop（无代码）

拉取模型

运行模型

要运行最新模型：

什么是 Docker Model Runner？