🐋DeepSeek-R1:ローカルでの実行方法
llama.cpp を使って DeepSeek-R1 の 1.58 ビット動的量子化を実行する方法のガイド。
llama.cpp を使用する(推奨)
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggerganov/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=ON -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp# pip install huggingface_hub hf_transfer
# import os # 高速ダウンロードのためのオプション
# os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
repo_id = "unsloth/DeepSeek-R1-GGUF",
local_dir = "DeepSeek-R1-GGUF",
allow_patterns = ["*UD-IQ1_S*"], # 1.58bit のために UD-IQ1_S を選択
)

量子化
ファイルサイズ
24GB GPU
80GB GPU
2x80GB GPU
Mac / Apple デバイスでの実行
Ollama / Open WebUI で実行する
DeepSeek チャットテンプレート
トークン
R1
蒸留 Qwen
蒸留 Llama
トークン
Qwen 2.5 32B Base
Llama 3.3 70B Instruct
GGUF R1 表
MoE ビット数
タイプ
ディスクサイズ
精度
リンク
詳細
最終更新
役に立ちましたか?

