🐋DeepSeek-R1-0528:如何在本地运行

关于如何在您自己的本地设备上运行 DeepSeek-R1-0528(包括 Qwen3)的指南!

DeepSeek-R1-0528 是 DeepSeek 对其 R1 推理模型的最新更新。完整的 671B 参数模型需要 715GB 磁盘空间。量化的动态 1.66 位 版本使用 162GB(大小减少 80%)。GGUF: DeepSeek-R1-0528-GGUFarrow-up-right

DeepSeek 还通过微调 Qwen3(8B)发布了 R1-0528 的蒸馏版本。该蒸馏在性能上与 Qwen3(235B)相当。 您也可以 使用 Unsloth 对 Qwen3 Distill 进行微调 使用 Unsloth。Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUFarrow-up-right

所有上传都使用 Unsloth Dynamic 2.0 用于 SOTA 的 5-shot MMLU 和 KL 散度性能,这意味着你可以以极小的精度损失运行并微调量化的 DeepSeek 大模型。

教程导航:

在 llama.cpp 中运行在 Ollama/Open WebUI 中运行微调 R1-0528

circle-check

⚙️ 推荐设置

对于 DeepSeek-R1-0528-Qwen3-8B,该模型几乎可以在任何配置中运行,甚至在只有 20GB 内存的情况下也能运行。无需事先准备。 但是,对于完整的 R1-0528 模型(大小为 715GB),您需要额外准备。1.78 位(IQ1_S)量化可在 1x 24GB GPU(所有层都卸载)中运行。如果您还有额外 128GB 内存,预计这种配置下大约能达到 5 令牌/秒。

建议至少有 64GB 内存来运行此量化(没有 GPU 时速度约为 1 令牌/秒)。为获得最佳性能,您至少需要 180GB 统一内存或 180GB 合并的 RAM+VRAM 以达到 5+ 令牌/秒。

我们建议使用我们的 2.7 位(Q2_K_XL)或 2.4 位(IQ2_XXS)量化以平衡大小和准确性!2.4 位的也表现良好。

circle-check

🐳 官方推荐设置:

根据 DeepSeekarrow-up-right,这些是 R1(R1-0528 和 Qwen3 蒸馏应使用相同设置)推理的推荐设置:

  • 设置 temperature 0.6 以减少重复和不连贯性。

  • 设置 top_p 为 0.95 (推荐)

  • 运行多次测试并取平均结果以获得可靠评估。

🔢 聊天模板/提示格式

R1-0528 使用与原始 R1 模型相同的聊天模板。您不需要强制 <think>\n ,但您仍然可以添加它!

强制添加了一个 BOS,并且每次交互由 EOS 分隔。为防止推断期间出现双 BOS 标记,你应该只调用 tokenizer.encode(..., add_special_tokens = False) 因为聊天模板也会自动添加一个 BOS 令牌。 对于 llama.cpp / GGUF 推理,您应跳过 BOS,因为它会自动添加:

最新的 <think></think> 令牌有它们各自指定的令牌。

模型上传

我们所有的上传 - 包括那些不是基于 imatrix 或动态的,均使用我们的校准数据集,该数据集专门针对对话、编码和语言任务进行了优化。

我们还上传了 IQ4_NLarrow-up-rightQ4_1arrow-up-right 这些量化版本分别专为 ARM 和 Apple 设备优化以实现更快运行。

MoE 位数
类型 + 链接
磁盘大小
详情

1.66 位

162GB

1.92/1.56 位

1.78 位

185GB

2.06/1.56 位

1.93 位

200GB

2.5/2.06/1.56

2.42 位

216GB

2.5/2.06 位

2.71 位

251GB

3.5/2.5 位

3.12 位

273GB

3.5/2.06 位

3.5 位

296GB

4.5/3.5 位

4.5 位

384GB

5.5/4.5 位

5.5 位

481GB

6.5/5.5 位

我们还上传了 BF16 格式arrow-up-right,以及原始的 FP8(float8)格式arrow-up-right.

运行 DeepSeek-R1-0528 教程:

🦙 在 Ollama/Open WebUI 中运行

  1. 安装 ollama 如果您还没有运行!您只能运行最大到 32B 的模型。要运行完整的 720GB R1-0528 模型, 请参见此处.

  1. 运行模型!注意如果失败你可以在另一个终端调用 ollama serve!我们在 params 中!

  1. (新)要在 Ollama 上运行完整的 R1-0528 模型,您可以使用我们的 TQ1_0(162GB 量化):

🦙 在 Ollama/Open WebUI 上运行完整 R1-0528

Open WebUI 已制作了如何运行 R1 的分步教程,对于 R1-0528,您只需将 R1 替换为新的 0528 量化: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/arrow-up-right

(新)要在 Ollama 上运行完整的 R1-0528 模型,您可以使用我们的 TQ1_0(162GB 量化):

如果您想在 Ollama 上使用任何比 TQ1_0(162GB)更大的量化,您首先需要将三个 GGUF 分割文件合并为一个,如下面的代码所示。然后您需要在本地运行模型。

✨ 在 llama.cpp 中运行 Qwen3 蒸馏的 R1

  1. 要运行完整的 720GB R1-0528 模型, 请参见此处. 获取最新的 llama.cpp此处 GitHubarrow-up-right。您也可以按下面的构建说明进行。若要更改 -DGGML_CUDA=ON-DGGML_CUDA=OFF 若您没有 GPU 或仅想要 CPU 推理,请这样设置。

  1. 然后直接使用 llama.cpp 下载模型:

✨ 在 llama.cpp 上运行完整 R1-0528

  1. 获取最新的 llama.cpp此处 GitHubarrow-up-right。您也可以按下面的构建说明进行。若要更改 -DGGML_CUDA=ON-DGGML_CUDA=OFF 若您没有 GPU 或仅想要 CPU 推理,请这样设置。

  1. 如果您想直接使用 llama.cpp 直接加载模型时,你可以如下操作:(:IQ1_S) 是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这与 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 将模型保存到特定位置。

circle-check
  1. 通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。您可以选择 UD-IQ1_S(动态 1.78bit 量化)或其他量化版本如 Q4_K_M 。我们 建议使用我们的 2.7bit 动态量化 UD-Q2_K_XL 以在大小和精度之间取得平衡。更多版本见: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUFarrow-up-right

  1. 按照我们为 DeepSeek R1 提供的 1.58 位动态量化说明运行 Unsloth 的 Flappy Bird 测试。

  2. 编辑 --threads 32 为 CPU 线程数, --ctx-size 16384 以设置上下文长度, --n-gpu-layers 2 用于指定有多少层进行 GPU 卸载。如果你的 GPU 出现内存不足,尝试调整它。如果只用 CPU 推理,也请移除此参数。

🎱 七边形测试

您也可以通过测试我们的动态量化 r/Localllamaarrow-up-right 通过 Heptagon 测试来测试动态量化,该测试要求模型创建一个基本物理引擎来模拟在移动的封闭七边形中旋转的球体。

目标是让七边形旋转,并且七边形内的球应当移动。
chevron-right运行模型的完整提示语hashtag

🦥 使用 Unsloth 微调 DeepSeek-R1-0528

要微调 DeepSeek-R1-0528-Qwen3-8B 使用 Unsloth,我们制作了一个新的 GRPO 笔记本,包含一个自定义奖励函数,旨在显著增强多语言输出——特别是提高目标语言回复的比率(在我们的示例中使用印尼语,但您可以使用任何语言)超过 40%。

虽然许多推理型大模型具备多语言能力,但它们的推理痕迹中常常会产生混合语言输出,将英语与目标语言混合。我们的奖励函数通过强烈鼓励使用目标语言输出,有效缓解了这一问题,从而显著提高语言一致性。

该奖励函数也完全可定制,允许您将其用于其他语言或针对特定领域或用例进行微调。

circle-check

Unsloth 使 R1-Qwen3 蒸馏微调速度提高 2×,使用 70% 更少的 VRAM,并支持 8× 更长的上下文长度。

最后更新于

这有帮助吗?