🐋DeepSeek-R1: Anleitung zum lokalen Betrieb
Eine Anleitung, wie du unsere 1,58-Bit-Dynamic-Quants für DeepSeek-R1 mit llama.cpp verwenden kannst.
Verwendung von llama.cpp (empfohlen)
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=ON -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp# pip install huggingface_hub hf_transfer
# import os # Optional für schnelleren Download
# os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
repo_id = "unsloth/DeepSeek-R1-GGUF",
local_dir = "DeepSeek-R1-GGUF",
allow_patterns = ["*UD-IQ1_S*"], # Wähle Quant-Typ UD-IQ1_S für 1.58bit
)

Quant
Dateigröße
24GB GPU
80GB GPU
2x80GB GPU
Ausführung auf Mac / Apple-Geräten
Ausführung in Ollama/Open WebUI
DeepSeek Chat-Template
Token
R1
Distill Qwen
Distill Llama
Token
Qwen 2.5 32B Base
Llama 3.3 70B Instruct
GGUF R1 Tabelle
MoE Bits
Typ
Platzbedarf auf Datenträger
Genauigkeit
Link
Details
Zuletzt aktualisiert
War das hilfreich?

