🐋DeepSeek-R1-0528:如何本地运行
关于如何在您自己的本地设备上运行包含 Qwen3 的 DeepSeek-R1-0528 的指南!
DeepSeek-R1-0528 是 DeepSeek 对其 R1 推理模型的全新更新。完整的 671B 参数模型需要 715GB 磁盘空间。量化的动态 1.66 位 版本使用 162GB(大小减少 80%)。GGUF: DeepSeek-R1-0528-GGUF
DeepSeek 还通过微调 Qwen3(8B)发布了 R1-0528 的蒸馏版本。该蒸馏在性能上与 Qwen3(235B)相似。 您还可以 微调 Qwen3 Distill 使用 Unsloth。Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF
所有上传均使用 Unsloth Dynamic 2.0 用于 SOTA 的 5-shot MMLU 和 KL 散度性能,这意味着你可以以最小的精度损失运行并微调量化的 DeepSeek LLM。
教程导航:
在 llama.cpp 中运行在 Ollama/Open WebUI 中运行微调 R1-0528
新:对工具调用进行了巨大的改进并修复了聊天模板。
新的 TQ1_0 动态 1.66 位 量化 - 大小为 162GB。适合 192GB 内存(包括 Mac)和 Ollama 用户。试试: ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
⚙️ 推荐设置
对于 DeepSeek-R1-0528-Qwen3-8B,该模型几乎可以适配任何配置,甚至仅有约 20GB 内存的设备也能运行。无需事先做任何准备。 然而,对于完整的 R1-0528 模型(大小为 715GB),您将需要额外的准备。1.78 位(IQ1_S)量化可适配一块 24GB 的 GPU(所有层均被卸载)。如果您同时还有额外的 128GB 内存,使用此配置预计约为每秒 5 个 token。
建议至少拥有 64GB 内存来运行此量化(没有 GPU 时大约每秒 1 个 token)。要获得最佳性能,您至少需要 180GB 统一内存或 180GB 组合的 RAM+VRAM 以达到每秒 5+ 个 token。
我们建议使用我们的 2.7 位(Q2_K_XL)或 2.4 位(IQ2_XXS)量化来平衡大小和准确性!2.4 位的也表现良好。
虽然不是必须,但为了最佳性能,请使您的 VRAM + RAM 总和等于您正在下载的量化模型的大小。
🐳 官方推荐设置:
根据 DeepSeek,以下是 R1(R1-0528 和 Qwen3 蒸馏应使用相同设置)的推理推荐设置:
将 temperature 0.6 以减少重复和不连贯。
将 top_p 设为 0.95 (推荐)
运行多次测试并对结果取平均以获得可靠评估。
🔢 聊天模板/提示格式
R1-0528 使用与原始 R1 模型相同的聊天模板。您无需强制 <think>\n ,但您仍然可以添加它!
会强制添加一个 BOS,并且每次交互由一个 EOS 分隔。为了在推理期间对抗双重 BOS 令牌,你应该只调用 tokenizer.encode(..., add_special_tokens = False) 因为聊天模板会自动添加一个 BOS token。
对于 llama.cpp / GGUF 推理,您应该跳过 BOS,因为它会自动添加:
最新的 <think> 和 </think> tokens 有它们各自指定的 token。
模型上传
我们所有的上传 - 包括那些不是基于 imatrix 或 动态 的版本,均使用我们的校准数据集,该数据集专门为对话、编码和语言任务进行了优化。
Qwen3(8B)蒸馏: DeepSeek-R1-0528-Qwen3-8B-GGUF
完整的 DeepSeek-R1-0528 模型上传如下:
我们也上传了 IQ4_NL 和 Q4_1 这些量化版本分别专为 ARM 和 Apple 设备优化,运行速度更快。
我们还上传了 BF16 格式,以及原始的 FP8(float8)格式.
运行 DeepSeek-R1-0528 教程:
🦙 在 Ollama/Open WebUI 中运行
安装
ollama如果您尚未这样做!您只能运行最大至 32B 大小的模型。要运行完整的 720GB R1-0528 模型, 请参阅这里.
运行模型!注意如果失败,您可以在另一个终端中调用
ollama serve我们在 Hugging Face 上传中包含了所有修复和建议参数(如 temperature 等),位于params中!
(新)要在 Ollama 上运行完整的 R1-0528 模型,您可以使用我们的 TQ1_0(162GB 量化):
🦙 在 Ollama/Open WebUI 上运行完整的 R1-0528
Open WebUI 制作了一个关于如何运行 R1 的逐步教程,对 R1-0528,只需将 R1 替换为新的 0528 量化即可: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/
(新)要在 Ollama 上运行完整的 R1-0528 模型,您可以使用我们的 TQ1_0(162GB 量化):
如果您想在 Ollama 上使用任何大于 TQ1_0(162GB)的量化,您需要先将 3 个 GGUF 分割文件合并为 1 个,像下面的代码那样。然后您需要在本地运行模型。
✨ 在 llama.cpp 中运行 Qwen3 蒸馏的 R1
要运行完整的 720GB R1-0528 模型, 请参阅这里. 获取最新的
llama.cpp在 此处的 GitHub。您也可以按照下面的构建说明进行。若-DGGML_CUDA=ON更改为-DGGML_CUDA=OFF如果您没有 GPU 或仅想要在 CPU 上进行推理。 对于 Apple Mac / Metal 设备,设置-DGGML_CUDA=OFF然后照常继续 - Metal 支持默认启用。
然后直接使用 llama.cpp 下载模型:
✨ 在 llama.cpp 上运行完整的 R1-0528
获取最新的
llama.cpp在 此处的 GitHub。您也可以按照下面的构建说明进行。若-DGGML_CUDA=ON更改为-DGGML_CUDA=OFF如果您没有 GPU 或仅想要在 CPU 上进行推理。 对于 Apple Mac / Metal 设备,设置-DGGML_CUDA=OFF然后照常继续 - Metal 支持默认启用。
如果您想直接使用
llama.cpp直接加载模型,您可以如下操作:(:IQ1_S) 是量化类型。您也可以通过 Hugging Face 下载(第 3 点)。这类似于ollama run类似。使用export LLAMA_CACHE="folder"来强制llama.cpp将其保存到特定位置。
请试用 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许您将所有非 MoE 层放在一块 GPU 上,从而提高生成速度。如果您有更多 GPU 容量,可以自定义正则表达式以卸载更多层。
如果你有稍多的 GPU 内存,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会卸载上投影和下投影的 MoE 层。
尝试 -ot ".ffn_(up)_exps.=CPU" 如果你有更多的 GPU 内存。这只会卸载上投影的 MoE 层。
最后通过卸载所有层来做: -ot ".ffn_.*_exps.=CPU" 这使用最少的 VRAM。
你也可以自定义正则表达式,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层起卸载 gate、up 和 down 的 MoE 层。
通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer之后)。您可以选择UD-IQ1_S(动态 1.78bit 量化)或其他量化版本,例如Q4_K_M。我们 建议使用我们的 2.7bit 动态量化UD-Q2_K_XL以在大小和准确性之间取得平衡。更多版本在: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF
按照我们为 DeepSeek R1 提供的 1.58bit 动态量化描述,运行 Unsloth 的 Flappy Bird 测试。
编辑
--threads 32用于设置 CPU 线程数,--ctx-size 16384用于上下文长度,--n-gpu-layers 2用于指定将多少层卸载到 GPU。若 GPU 出现内存不足,请尝试调整它。若仅使用 CPU 推理,请移除此项。
🎱 七边形测试
您也可以通过测试我们的动态量化: r/Localllama 该测试要求模型创建一个基本物理引擎,以模拟球在移动的封闭七边形中旋转的情况。

🦥 使用 Unsloth 微调 DeepSeek-R1-0528
要微调 DeepSeek-R1-0528-Qwen3-8B 使用 Unsloth,我们制作了一个新的 GRPO 笔记本,包含一个自定义奖励函数,旨在显著增强多语种输出——特别是提高目标语言响应的比例(在我们的示例中使用印尼语,但您可以使用任何语言)超过 40%。
尽管许多推理类大型语言模型具有多语种能力,但它们在推理痕迹中常常产生混合语言输出,将英语与目标语言混合在一起。我们的奖励函数通过强烈鼓励以期望语言输出,有效缓解了这一问题,从而显著提高了语言一致性。
该奖励函数也完全可定制,允许您将其适配到其他语言或针对特定领域或用例进行微调。
关于这个奖励函数和笔记本,最棒的部分是您并不需要语言数据集来强制模型学习特定语言。该笔记本没有使用印尼语数据集。
Unsloth 使 R1-Qwen3 蒸馏微调快 2 倍,使用 70% 更少的显存,并支持 8 倍更长的上下文长度。
最后更新于
这有帮助吗?

