🐋DeepSeek-R1 : Comment exécuter localement
Un guide sur la façon dont vous pouvez exécuter nos quantifications dynamiques 1.58-bit pour DeepSeek-R1 en utilisant llama.cpp.
Utilisation de llama.cpp (recommandé)
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggerganov/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=ON -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp# pip install huggingface_hub hf_transfer
# import os # Optionnel pour un téléchargement plus rapide
# os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
repo_id = "unsloth/DeepSeek-R1-GGUF",
local_dir = "DeepSeek-R1-GGUF",
allow_patterns = ["*UD-IQ1_S*"], # Sélectionnez le type de quantification UD-IQ1_S pour 1,58 bit
)

Quant
Taille du fichier
GPU 24 Go
GPU 80 Go
2xGPU 80 Go
Exécution sur Mac / appareils Apple
Exécuter dans Ollama/Open WebUI
Modèle de chat DeepSeek
Jeton
R1
Distill Qwen
Distill Llama
Jeton
Qwen 2.5 32B Base
Llama 3.3 70B Instruct
Tableau GGUF R1
Bits MoE
Type
Taille sur disque
Précision
Lien
Détails
Mis à jour
Ce contenu vous a-t-il été utile ?

