🐋DeepSeek-R1-0528:如何在本地运行
关于如何在你自己的本地设备上运行包括 Qwen3 在内的 DeepSeek-R1-0528 的指南!
DeepSeek-R1-0528 是 DeepSeek 对其 R1 推理模型的新更新。完整的 671B 参数模型需要 715GB 的磁盘空间。量化动态 1.66 位 版本占用 162GB(体积减少 80%)。GGUF: DeepSeek-R1-0528-GGUF
DeepSeek 还通过微调 Qwen3(8B)发布了一个 R1-0528 蒸馏版本。该蒸馏模型实现了与 Qwen3(235B)相近的性能。 你也可以 微调 Qwen3 Distill 使用 Unsloth。Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF
所有上传都使用 Unsloth 的 Dynamic 2.0 以实现最先进的 5-shot MMLU 和 KL 散度性能,这意味着你可以在精度损失极小的情况下运行并微调量化版 DeepSeek LLM。
教程导航:
在 llama.cpp 中运行在 Ollama/Open WebUI 中运行微调 R1-0528
全新:工具调用能力大幅提升,并修复了聊天模板。
新的 TQ1_0 动态 1.66 位量化 - 大小为 162GB。非常适合 192GB RAM(包括 Mac)和 Ollama 用户。试试: ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
⚙️ 推荐设置
对于 DeepSeek-R1-0528-Qwen3-8B,这个模型几乎适合任何配置,甚至 20GB RAM 左右的环境也可以。事先无需任何准备。 不过,对于完整的 R1-0528 模型(大小为 715GB),你需要做额外准备。1.78 位(IQ1_S)量化可以装入 1 张 24GB GPU(并将所有层卸载)。如果你另外还有 128GB RAM,预计这种配置下速度约为 5 token/s。
建议至少拥有 64GB RAM 来运行这个量化版本(如果没有 GPU,你将得到 1 token/s)。为了获得最佳性能,你至少需要 180GB 统一内存或 180GB 的 RAM+VRAM 总和 以达到 5+ token/s。
我们建议使用我们的 2.7 位(Q2_K_XL)或 2.4 位(IQ2_XXS)量化,以平衡体积和精度!2.4 位版本也表现很好。
虽然不是必须,但为了获得最佳性能,请确保你的 VRAM + RAM 总和 = 你正在下载的量化版本大小。
🐳 官方推荐设置:
根据 DeepSeek的说法,这些是 R1(R1-0528 和 Qwen3 蒸馏版应使用相同设置)推理的推荐设置:
将 temperature 设为 0.6 以减少重复和不连贯。
将 top_p 设为 0.95 (推荐)
运行多次测试并对结果取平均,以获得可靠评估。
🔢 聊天模板/提示词格式
R1-0528 使用与原始 R1 模型相同的聊天模板。你不需要强制加入 <think>\n ,但你仍然可以添加它!
会被强制添加一个 BOS,并且每次交互之间由一个 EOS 分隔。为避免推理时出现双 BOS token,你应当只调用 tokenizer.encode(..., add_special_tokens = False) 因为聊天模板也会自动添加一个 BOS token。
对于 llama.cpp / GGUF 推理,你应该跳过 BOS,因为它会自动添加:
其中 <think> 和 </think> token 都有各自指定的 token。
模型上传
我们所有的上传内容 - 包括那些不是基于 imatrix 或 dynamic 的版本,都使用了我们的校准数据集,该数据集专门针对对话、编程和语言任务进行了优化。
Qwen3(8B)蒸馏版: DeepSeek-R1-0528-Qwen3-8B-GGUF
下面是完整的 DeepSeek-R1-0528 模型上传内容:
我们还上传了 IQ4_NL 和 Q4_1 量化版本,它们分别在 ARM 和 Apple 设备上运行得更快。
我们还上传了 BF16 格式,以及原始的 FP8(float8)格式.
运行 DeepSeek-R1-0528 教程:
🦙 在 Ollama/Open WebUI 中运行
安装
ollama如果你还没安装!你只能运行最大到 32B 大小的模型。要运行完整的 720GB R1-0528 模型, 请看这里.
运行模型!注意如果失败了,你可以在另一个终端中调用
ollama serve!我们在 Hugging Face 上传中的params里包含了我们所有的修复和建议参数(temperature 等)!
(新)要在 Ollama 中运行完整的 R1-0528 模型,你可以使用我们的 TQ1_0(162GB 量化):
🦙 在 Ollama/Open WebUI 上运行完整 R1-0528
Open WebUI 已经制作了一个关于如何在这里运行 R1 的分步教程,而对于 R1-0528,你只需要将其中的 R1 替换为新的 0528 量化版本: https://docs.openwebui.com/tutorials/integrations/llm-providers/deepseekr1-dynamic
(新)要在 Ollama 中运行完整的 R1-0528 模型,你可以使用我们的 TQ1_0(162GB 量化):
如果你想在 Ollama 上使用任何比 TQ1_0(162GB)更大的量化版本,你需要先像下面的代码那样将 3 个 GGUF 分片文件合并成 1 个。然后你需要在本地运行该模型。
✨ 在 llama.cpp 中运行 Qwen3 蒸馏版 R1
然后直接使用 llama.cpp 下载模型:
✨ 在 llama.cpp 上运行完整 R1-0528
获取最新的
llama.cpp在 GitHub 这里。你也可以按照下面的构建说明来做。如果你没有 GPU 或只想用 CPU 推理,请将-DGGML_CUDA=ON改为-DGGML_CUDA=OFF。 对于 Apple Mac / Metal 设备,设置-DGGML_CUDA=OFF然后像平常一样继续——Metal 支持默认启用。
如果你想使用
llama.cpp来直接加载模型,你可以按下面这样做:(:IQ1_S) 是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于ollama run。使用export LLAMA_CACHE="folder"来强制llama.cpp保存到特定位置。
请试试 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这样可以有效地让你把所有非 MoE 层放在 1 张 GPU 上,从而提高生成速度。如果你有更多 GPU 容量,也可以自定义这个正则表达式以适配更多层。
如果你有更多一点的 GPU 显存,试试 -ot ".ffn_(up|down)_exps.=CPU" 这会卸载 up 和 down projection 的 MoE 层。
试试 -ot ".ffn_(up)_exps.=CPU" 如果你有更多的 GPU 显存。这会只卸载 up projection 的 MoE 层。
最后,通过以下方式卸载所有层 -ot ".ffn_.*_exps.=CPU" 这会使用最少的 VRAM。
你也可以自定义这个正则表达式,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示卸载 gate、up 和 down 的 MoE 层,但只从第 6 层开始。
通过以下方式下载模型(安装
pip install huggingface_hub hf_transfer之后)。你可以选择UD-IQ1_S(动态 1.78 位量化)或其他量化版本,例如Q4_K_M。我们 推荐使用我们的 2.7 位动态量化UD-Q2_K_XL来平衡体积与精度。更多版本见: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF
按照我们在 DeepSeek R1 的 1.58 位动态量化中描述的方式,运行 Unsloth 的 Flappy Bird 测试。
编辑
--threads 32用于设置 CPU 线程数,--ctx-size 16384用于设置上下文长度,--n-gpu-layers 2用于设置 GPU 卸载多少层。如果你的 GPU 显存不足,请尝试调整它。如果你只进行 CPU 推理,也请移除它。
🎱 七边形测试
你也可以通过 r/Localllama 来测试我们的动态量化,它会测试模型创建一个基础物理引擎,以模拟小球在一个移动的封闭七边形中旋转。

🦥 使用 Unsloth 微调 DeepSeek-R1-0528
要微调 DeepSeek-R1-0528-Qwen3-8B 并使用 Unsloth,我们制作了一个新的 GRPO notebook,其中包含一个自定义奖励函数,旨在显著增强多语言输出——特别是将所需语言响应的比例(在我们的示例中使用印尼语,但你可以使用任何语言)提高 40% 以上。
虽然许多推理型 LLM 具备多语言能力,但它们往往会在推理轨迹中生成混合语言输出,将英语与目标语言混杂在一起。我们的奖励函数通过强力鼓励使用目标语言输出,有效缓解了这个问题,从而大幅提升了语言一致性。
这个奖励函数也完全可定制,你可以将其调整用于其他语言,或针对特定领域和用例进行微调。
关于这个奖励函数和 notebook 最棒的一点是,你不需要语言数据集来强制模型学习某种特定语言。该 notebook 不包含印尼语数据集。
Unsloth 让 R1-Qwen3 蒸馏版微调速度提高 2×,显存占用减少 70%,并支持长达 8× 的上下文长度。
最后更新于
这有帮助吗?

