🐋DeepSeek-R1:如何在本地运行
关于如何使用 llama.cpp 运行我们为 DeepSeek-R1 提供的 1.58-bit 动态量化的指南。
使用 llama.cpp(推荐)
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=ON -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp# pip install huggingface_hub hf_transfer
# import os # 可选,用于更快下载
# os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
repo_id = "unsloth/DeepSeek-R1-GGUF",
local_dir = "DeepSeek-R1-GGUF",
allow_patterns = ["*UD-IQ1_S*"], # 选择 1.58bit 的量化类型 UD-IQ1_S
)

量化
文件大小
24GB GPU
80GB GPU
2x80GB GPU
在 Mac / Apple 设备上运行
在 Ollama/Open WebUI 中运行
DeepSeek 聊天模板
Token
R1
蒸馏 Qwen
蒸馏 Llama
Token
Qwen 2.5 32B Base
Llama 3.3 70B Instruct
GGUF R1 表
MoE 比特数
类型
磁盘大小
准确率
链接
详情
最后更新于
这有帮助吗?

