🐋DeepSeek-R1-0528:如何在本地运行
关于如何在您自己的本地设备上运行 DeepSeek-R1-0528(包括 Qwen3)的指南!
DeepSeek-R1-0528 是 DeepSeek 对其 R1 推理模型的最新更新。完整的 671B 参数模型需要 715GB 磁盘空间。量化的动态 1.66 位 版本使用 162GB(大小减少 80%)。GGUF: DeepSeek-R1-0528-GGUF
DeepSeek 还通过微调 Qwen3(8B)发布了 R1-0528 的蒸馏版本。该蒸馏在性能上与 Qwen3(235B)相当。 您也可以 使用 Unsloth 对 Qwen3 Distill 进行微调 使用 Unsloth。Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF
所有上传都使用 Unsloth Dynamic 2.0 用于 SOTA 的 5-shot MMLU 和 KL 散度性能,这意味着你可以以极小的精度损失运行并微调量化的 DeepSeek 大模型。
教程导航:
在 llama.cpp 中运行在 Ollama/Open WebUI 中运行微调 R1-0528
新:对工具调用和聊天模板修复进行了巨大改进。
新的 TQ1_0 动态 1.66 位 量化 - 大小为 162GB。适用于包含 Mac 在内的 192GB 内存以及 Ollama 用户。试试: ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
⚙️ 推荐设置
对于 DeepSeek-R1-0528-Qwen3-8B,该模型几乎可以在任何配置中运行,甚至在只有 20GB 内存的情况下也能运行。无需事先准备。 但是,对于完整的 R1-0528 模型(大小为 715GB),您需要额外准备。1.78 位(IQ1_S)量化可在 1x 24GB GPU(所有层都卸载)中运行。如果您还有额外 128GB 内存,预计这种配置下大约能达到 5 令牌/秒。
建议至少有 64GB 内存来运行此量化(没有 GPU 时速度约为 1 令牌/秒)。为获得最佳性能,您至少需要 180GB 统一内存或 180GB 合并的 RAM+VRAM 以达到 5+ 令牌/秒。
我们建议使用我们的 2.7 位(Q2_K_XL)或 2.4 位(IQ2_XXS)量化以平衡大小和准确性!2.4 位的也表现良好。
虽然不是必须,但为了获得最佳性能,确保您的 VRAM + RAM 合计等于您正在下载的量化大小。
🐳 官方推荐设置:
根据 DeepSeek,这些是 R1(R1-0528 和 Qwen3 蒸馏应使用相同设置)推理的推荐设置:
设置 temperature 0.6 以减少重复和不连贯性。
设置 top_p 为 0.95 (推荐)
运行多次测试并取平均结果以获得可靠评估。
🔢 聊天模板/提示格式
R1-0528 使用与原始 R1 模型相同的聊天模板。您不需要强制 <think>\n ,但您仍然可以添加它!
强制添加了一个 BOS,并且每次交互由 EOS 分隔。为防止推断期间出现双 BOS 标记,你应该只调用 tokenizer.encode(..., add_special_tokens = False) 因为聊天模板也会自动添加一个 BOS 令牌。
对于 llama.cpp / GGUF 推理,您应跳过 BOS,因为它会自动添加:
最新的 <think> 和 </think> 令牌有它们各自指定的令牌。
模型上传
我们所有的上传 - 包括那些不是基于 imatrix 或动态的,均使用我们的校准数据集,该数据集专门针对对话、编码和语言任务进行了优化。
Qwen3(8B)蒸馏: DeepSeek-R1-0528-Qwen3-8B-GGUF
完整的 DeepSeek-R1-0528 模型上传如下:
我们还上传了 IQ4_NL 和 Q4_1 这些量化版本分别专为 ARM 和 Apple 设备优化以实现更快运行。
我们还上传了 BF16 格式,以及原始的 FP8(float8)格式.
运行 DeepSeek-R1-0528 教程:
🦙 在 Ollama/Open WebUI 中运行
安装
ollama如果您还没有运行!您只能运行最大到 32B 的模型。要运行完整的 720GB R1-0528 模型, 请参见此处.
运行模型!注意如果失败你可以在另一个终端调用
ollama serve!我们在params中!
(新)要在 Ollama 上运行完整的 R1-0528 模型,您可以使用我们的 TQ1_0(162GB 量化):
🦙 在 Ollama/Open WebUI 上运行完整 R1-0528
Open WebUI 已制作了如何运行 R1 的分步教程,对于 R1-0528,您只需将 R1 替换为新的 0528 量化: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/
(新)要在 Ollama 上运行完整的 R1-0528 模型,您可以使用我们的 TQ1_0(162GB 量化):
如果您想在 Ollama 上使用任何比 TQ1_0(162GB)更大的量化,您首先需要将三个 GGUF 分割文件合并为一个,如下面的代码所示。然后您需要在本地运行模型。
✨ 在 llama.cpp 中运行 Qwen3 蒸馏的 R1
然后直接使用 llama.cpp 下载模型:
✨ 在 llama.cpp 上运行完整 R1-0528
获取最新的
llama.cpp于 此处 GitHub。您也可以按下面的构建说明进行。若要更改-DGGML_CUDA=ON为-DGGML_CUDA=OFF若您没有 GPU 或仅想要 CPU 推理,请这样设置。
如果您想直接使用
llama.cpp直接加载模型时,你可以如下操作:(:IQ1_S) 是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这与ollama run。使用export LLAMA_CACHE="folder"来强制llama.cpp将模型保存到特定位置。
请尝试 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许您将所有非 MoE 层放在 1 个 GPU 上,从而提高生成速度。如果您有更多 GPU 容量,可以定制正则表达式以适配更多层。
如果您有更多一些的 GPU 内存,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会将上投和下投的 MoE 层卸载。
尝试 -ot ".ffn_(up)_exps.=CPU" 如果您还有更多 GPU 内存。此选项仅卸载上投 MoE 层。
最后,通过卸载所有层使用 -ot ".ffn_.*_exps.=CPU" 这使用最少的 VRAM。
您也可以自定义正则表达式,例如 -ot "\\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层开始卸载 gate、up 和 down 的 MoE 层。
通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer之后)。您可以选择UD-IQ1_S(动态 1.78bit 量化)或其他量化版本如Q4_K_M。我们 建议使用我们的 2.7bit 动态量化UD-Q2_K_XL以在大小和精度之间取得平衡。更多版本见: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF
按照我们为 DeepSeek R1 提供的 1.58 位动态量化说明运行 Unsloth 的 Flappy Bird 测试。
编辑
--threads 32为 CPU 线程数,--ctx-size 16384以设置上下文长度,--n-gpu-layers 2用于指定有多少层进行 GPU 卸载。如果你的 GPU 出现内存不足,尝试调整它。如果只用 CPU 推理,也请移除此参数。
🎱 七边形测试
您也可以通过测试我们的动态量化 r/Localllama 通过 Heptagon 测试来测试动态量化,该测试要求模型创建一个基本物理引擎来模拟在移动的封闭七边形中旋转的球体。

🦥 使用 Unsloth 微调 DeepSeek-R1-0528
要微调 DeepSeek-R1-0528-Qwen3-8B 使用 Unsloth,我们制作了一个新的 GRPO 笔记本,包含一个自定义奖励函数,旨在显著增强多语言输出——特别是提高目标语言回复的比率(在我们的示例中使用印尼语,但您可以使用任何语言)超过 40%。
虽然许多推理型大模型具备多语言能力,但它们的推理痕迹中常常会产生混合语言输出,将英语与目标语言混合。我们的奖励函数通过强烈鼓励使用目标语言输出,有效缓解了这一问题,从而显著提高语言一致性。
该奖励函数也完全可定制,允许您将其用于其他语言或针对特定领域或用例进行微调。
关于这个奖励函数和笔记本最棒的部分是您不需要语言数据集来迫使模型学习特定语言。该笔记本没有印尼语数据集。
Unsloth 使 R1-Qwen3 蒸馏微调速度提高 2×,使用 70% 更少的 VRAM,并支持 8× 更长的上下文长度。
最后更新于
这有帮助吗?

