For the complete documentation index, see llms.txt. This page is also available as Markdown.

🐋DeepSeek-R1-0528:如何在本地运行

关于如何在你自己的本地设备上运行包括 Qwen3 在内的 DeepSeek-R1-0528 的指南!

DeepSeek-R1-0528 是 DeepSeek 对其 R1 推理模型的新更新。完整的 671B 参数模型需要 715GB 的磁盘空间。量化动态 1.66 位 版本占用 162GB(体积减少 80%)。GGUF: DeepSeek-R1-0528-GGUF

DeepSeek 还通过微调 Qwen3(8B)发布了一个 R1-0528 蒸馏版本。该蒸馏模型实现了与 Qwen3(235B)相近的性能。 你也可以 微调 Qwen3 Distill 使用 Unsloth。Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF

所有上传都使用 Unsloth 的 Dynamic 2.0 以实现最先进的 5-shot MMLU 和 KL 散度性能,这意味着你可以在精度损失极小的情况下运行并微调量化版 DeepSeek LLM。

教程导航:

在 llama.cpp 中运行在 Ollama/Open WebUI 中运行微调 R1-0528

⚙️ 推荐设置

对于 DeepSeek-R1-0528-Qwen3-8B,这个模型几乎适合任何配置,甚至 20GB RAM 左右的环境也可以。事先无需任何准备。 不过,对于完整的 R1-0528 模型(大小为 715GB),你需要做额外准备。1.78 位(IQ1_S)量化可以装入 1 张 24GB GPU(并将所有层卸载)。如果你另外还有 128GB RAM,预计这种配置下速度约为 5 token/s。

建议至少拥有 64GB RAM 来运行这个量化版本(如果没有 GPU,你将得到 1 token/s)。为了获得最佳性能,你至少需要 180GB 统一内存或 180GB 的 RAM+VRAM 总和 以达到 5+ token/s。

我们建议使用我们的 2.7 位(Q2_K_XL)或 2.4 位(IQ2_XXS)量化,以平衡体积和精度!2.4 位版本也表现很好。

🐳 官方推荐设置:

根据 DeepSeek的说法,这些是 R1(R1-0528 和 Qwen3 蒸馏版应使用相同设置)推理的推荐设置:

  • temperature 设为 0.6 以减少重复和不连贯。

  • top_p 设为 0.95 (推荐)

  • 运行多次测试并对结果取平均,以获得可靠评估。

🔢 聊天模板/提示词格式

R1-0528 使用与原始 R1 模型相同的聊天模板。你不需要强制加入 <think>\n ,但你仍然可以添加它!

会被强制添加一个 BOS,并且每次交互之间由一个 EOS 分隔。为避免推理时出现双 BOS token,你应当只调用 tokenizer.encode(..., add_special_tokens = False) 因为聊天模板也会自动添加一个 BOS token。 对于 llama.cpp / GGUF 推理,你应该跳过 BOS,因为它会自动添加:

其中 <think></think> token 都有各自指定的 token。

模型上传

我们所有的上传内容 - 包括那些不是基于 imatrix 或 dynamic 的版本,都使用了我们的校准数据集,该数据集专门针对对话、编程和语言任务进行了优化。

我们还上传了 IQ4_NLQ4_1 量化版本,它们分别在 ARM 和 Apple 设备上运行得更快。

MoE 位数
类型 + 链接
磁盘大小
详情

1.66 位

162GB

1.92/1.56 位

1.78 位

185GB

2.06/1.56 位

1.93 位

200GB

2.5/2.06/1.56

2.42 位

216GB

2.5/2.06 位

2.71 位

251GB

3.5/2.5 位

3.12 位

273GB

3.5/2.06 位

3.5 位

296GB

4.5/3.5 位

4.5 位

384GB

5.5/4.5 位

5.5 位

481GB

6.5/5.5 位

我们还上传了 BF16 格式,以及原始的 FP8(float8)格式.

运行 DeepSeek-R1-0528 教程:

🦙 在 Ollama/Open WebUI 中运行

  1. 安装 ollama 如果你还没安装!你只能运行最大到 32B 大小的模型。要运行完整的 720GB R1-0528 模型, 请看这里.

  1. 运行模型!注意如果失败了,你可以在另一个终端中调用 ollama serve!我们在 Hugging Face 上传中的 params 里包含了我们所有的修复和建议参数(temperature 等)!

  1. (新)要在 Ollama 中运行完整的 R1-0528 模型,你可以使用我们的 TQ1_0(162GB 量化):

🦙 在 Ollama/Open WebUI 上运行完整 R1-0528

Open WebUI 已经制作了一个关于如何在这里运行 R1 的分步教程,而对于 R1-0528,你只需要将其中的 R1 替换为新的 0528 量化版本: https://docs.openwebui.com/tutorials/integrations/llm-providers/deepseekr1-dynamic

(新)要在 Ollama 中运行完整的 R1-0528 模型,你可以使用我们的 TQ1_0(162GB 量化):

如果你想在 Ollama 上使用任何比 TQ1_0(162GB)更大的量化版本,你需要先像下面的代码那样将 3 个 GGUF 分片文件合并成 1 个。然后你需要在本地运行该模型。

✨ 在 llama.cpp 中运行 Qwen3 蒸馏版 R1

  1. 要运行完整的 720GB R1-0528 模型, 请看这里. 获取最新的 llama.cppGitHub 这里。你也可以按照下面的构建说明来做。如果你没有 GPU 或只想用 CPU 推理,请将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后像平常一样继续——Metal 支持默认启用。

  1. 然后直接使用 llama.cpp 下载模型:

✨ 在 llama.cpp 上运行完整 R1-0528

  1. 获取最新的 llama.cppGitHub 这里。你也可以按照下面的构建说明来做。如果你没有 GPU 或只想用 CPU 推理,请将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后像平常一样继续——Metal 支持默认启用。

  1. 如果你想使用 llama.cpp 来直接加载模型,你可以按下面这样做:(:IQ1_S) 是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。

  1. 通过以下方式下载模型(安装 pip install huggingface_hub hf_transfer 之后)。你可以选择 UD-IQ1_S(动态 1.78 位量化)或其他量化版本,例如 Q4_K_M 。我们 推荐使用我们的 2.7 位动态量化 UD-Q2_K_XL 来平衡体积与精度。更多版本见: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF

  1. 按照我们在 DeepSeek R1 的 1.58 位动态量化中描述的方式,运行 Unsloth 的 Flappy Bird 测试。

  2. 编辑 --threads 32 用于设置 CPU 线程数, --ctx-size 16384 用于设置上下文长度, --n-gpu-layers 2 用于设置 GPU 卸载多少层。如果你的 GPU 显存不足,请尝试调整它。如果你只进行 CPU 推理,也请移除它。

🎱 七边形测试

你也可以通过 r/Localllama 来测试我们的动态量化,它会测试模型创建一个基础物理引擎,以模拟小球在一个移动的封闭七边形中旋转。

目标是让七边形旋转,并且七边形内的球也应该移动。
运行模型的完整提示词

🦥 使用 Unsloth 微调 DeepSeek-R1-0528

要微调 DeepSeek-R1-0528-Qwen3-8B 并使用 Unsloth,我们制作了一个新的 GRPO notebook,其中包含一个自定义奖励函数,旨在显著增强多语言输出——特别是将所需语言响应的比例(在我们的示例中使用印尼语,但你可以使用任何语言)提高 40% 以上。

虽然许多推理型 LLM 具备多语言能力,但它们往往会在推理轨迹中生成混合语言输出,将英语与目标语言混杂在一起。我们的奖励函数通过强力鼓励使用目标语言输出,有效缓解了这个问题,从而大幅提升了语言一致性。

这个奖励函数也完全可定制,你可以将其调整用于其他语言,或针对特定领域和用例进行微调。

Unsloth 让 R1-Qwen3 蒸馏版微调速度提高 2×,显存占用减少 70%,并支持长达 8× 的上下文长度。

最后更新于

这有帮助吗?