🐋DeepSeek-R1-0528: ローカルで実行する方法

Qwen3 を含む DeepSeek-R1-0528 を自分のローカルデバイスで実行する方法のガイド！

DeepSeek-R1-0528 は DeepSeek の R1 推論モデルの新しい更新版です。フルの 671B パラメータモデルは 715GB のディスク容量を必要とします。量子化された動的な 1.66 ビット バージョンは 162GB を使用します（サイズが -80% 減少）。GGUF: DeepSeek-R1-0528-GGUF

DeepSeek はまた Qwen3（8B）を微調整して作成した R1-0528 の蒸留版も公開しました。蒸留版は Qwen3（235B）と同等の性能を達成します。 あなたはまた Qwen3 Distill を微調整できます Unsloth で. Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF

すべてのアップロードはUnslothを使用しています Dynamic 2.0 SOTA の 5-shot MMLU と KL ダイバージェンス性能を実現しており、量子化された DeepSeek LLM を最小限の精度低下で実行およびファインチューニングできます。

チュートリアルナビゲーション：

llama.cpp で実行する Ollama/Open WebUI で実行する R1-0528 の微調整

新着: ツールコールとチャットテンプレートの修正に大幅な改善。新しい TQ1_0 動的 1.66 ビット量子化 - サイズは 162GB。192GB の RAM（Mac を含む）や Ollama ユーザーに最適です。試してみてください: ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

⚙️ 推奨設定

DeepSeek-R1-0528-Qwen3-8B については、モデルはほとんどどんな環境にも収まります。20GB 程度の RAM しかない環境でも動作します。事前準備は不要です。しかし、サイズが 715GB のフル R1-0528 モデルについては、追加の準備が必要です。1.78 ビット（IQ1_S）量子化は 1x 24GB GPU（全レイヤーをオフロードする構成）に収まります。この構成で追加の 128GB RAM がある場合、約 5 トークン/秒を期待できます。

この量子化を実行するには少なくとも 64GB の RAM を推奨します（GPU がない場合は 1 トークン/秒程度になります）。最適な性能を得るには少なくとも 180GB のユニファイドメモリまたは合計 180GB の RAM+VRAM があれば 5+ トークン/秒を期待できます。

サイズと精度のバランスを取るために、2.7 ビット（Q2_K_XL）または 2.4 ビット（IQ2_XXS）の量子化を使用することをお勧めします！2.4 ビットのものもよく動作します。

必須ではありませんが、最高のパフォーマンスを得るには、ダウンロードする量子化のサイズと VRAM + RAM の合計を揃えてください。

🐳 公式推奨設定:

によれば DeepSeek、これらは R1（R1-0528 と Qwen3 蒸留版は同じ設定を使用する必要があります）の推論に対する推奨設定です:

次の値を設定してください 、これらが Kimi K2 推論の推奨設定です： 反復や非一貫性を減らすため。
次を設定してください top_p を 0.95 に （推奨）
複数のテストを実行し、結果を平均化して信頼できる評価を行ってください。

🔢 チャットテンプレート／プロンプト形式

R1-0528 は元の R1 モデルと同じチャットテンプレートを使用します。強制的に <think>\n する必要はありませんが、追加することは可能です！

<｜begin▁of▁sentence｜><｜User｜>What is 1+1?<｜Assistant｜>It's 2.<｜end▁of▁sentence｜><｜User｜>Explain more!<｜Assistant｜>

BOS は強制的に追加され、EOS は各インタラクションを区切ります。推論時の BOS トークンの重複を避けるために、次だけを呼び出すべきです tokenizer.encode(..., add_special_tokens = False) チャットテンプレートは BOS トークンも自動で追加するためです。 llama.cpp / GGUF 推論では、BOS は自動で追加されるためスキップすべきです:

<｜User｜>What is 1+1?<｜Assistant｜>

最新の <think> と </think> トークンにはそれぞれ専用のトークンが割り当てられます。

モデルのアップロード

当社のすべてのアップロード - imatrix ベースまたは動的でないものを含め、会話、コーディング、および言語タスクに最適化されたキャリブレーションデータセットを利用しています。

Qwen3（8B）蒸留版: DeepSeek-R1-0528-Qwen3-8B-GGUF
以下にフル DeepSeek-R1-0528 モデルのアップロードがあります:

また、次もアップロードしました IQ4_NL と Q4_1 それぞれ ARM および Apple デバイス向けに特に高速に動作するクオンタイズです。

MoE ビット数

タイプ + リンク

ディスクサイズ

詳細

1.66ビット

TQ1_0

162GB

1.92/1.56ビット

1.78ビット

IQ1_S

185GB

2.06/1.56ビット

1.93ビット

IQ1_M

200GB

2.5/2.06/1.56

2.42ビット

IQ2_XXS

216GB

2.5/2.06ビット

2.71ビット

Q2_K_XL

251GB

3.5/2.5ビット

3.12ビット

IQ3_XXS

273GB

3.5/2.06ビット

3.5ビット

Q3_K_XL

296GB

4.5/3.5ビット

4.5ビット

Q2_K_XL（動的2ビット量子化）や

384GB

5.5/4.5ビット

5.5ビット

Q5_K_XL

481GB

6.5/5.5ビット

732GB また、私たちは、およびオリジナルの FP8（float8）フォーマット.

DeepSeek-R1-0528 チュートリアルを実行:

🦙 Ollama/Open WebUI で実行する

Ollamaで実行する をインストールしてください もしまだなら！サイズが 32B までのモデルしか実行できません。フルの 720GB R1-0528 モデルを実行するには、まだインストールしていない場合！モデルのより多くのバリアントを実行するには、.

apt-get update
こちらを参照してください
apt-get install pciutils -y

curl -fsSL https://ollama.com/install.sh | sh モデルを実行してください！失敗した場合は別のターミナルでollama serve を呼び出すことができます！私たちはすべての修正と推奨パラメータ（temperatureなど）を params

ollama run hf.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_XL

（新）Ollama でフル R1-0528 モデルを実行するには、TQ1_0（162GB 量子化）を使用できます:

OLLAMA_MODELS=unsloth_downloaded_models ollama serve &

ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

🦙 Ollama/Open WebUI 上でフル R1-0528 を実行する

Open WebUI は R1 を実行する手順をステップバイステップのチュートリアルにまとめています。R1-0528 については単に R1 を新しい 0528 量子化に置き換えるだけで済みます: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/

（新）Ollama でフル R1-0528 モデルを実行するには、TQ1_0（162GB 量子化）を使用できます:

OLLAMA_MODELS=unsloth_downloaded_models ollama serve &

ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

TQ1_0（162GB）より大きい量子化を Ollama 上で使用したい場合は、まず 3 つの GGUF 分割ファイルを下のコードのように 1 つに結合する必要があります。その後ローカルでモデルを実行してください。

他の量子化を実行するには、まずGGUFの分割ファイルを以下のように1つにマージする必要があります。その後モデルをローカルで実行する必要があります。
  DeepSeek-R1-0528-GGUF/DeepSeek-R1-0528-UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00003.gguf \
	GLM-4.7-GGUF/GLM-4.7-UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \

✨ Qwen3 蒸留版 R1 を llama.cpp で実行する

フル 720GB の R1-0528 モデルを実行するには、 まだインストールしていない場合！モデルのより多くのバリアントを実行するには、. 最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

その後、モデルをダウンロードするために直接 llama.cpp を使用してください:

./llama.cpp/llama-cli -hf unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_XL --jinja

✨ llama.cpp でフル R1-0528 を実行する

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp

もし直接 llama.cpp モデルを直接ロードするには、下記を行えます：（:IQ1_S）は量子化タイプです。Hugging Face（ポイント 3）からもダウンロードできます。これは以下と類似しています ollama run に類似しています。 使用してください export LLAMA_CACHE="folder" llama.cpp 特定の場所に保存するために。

ぜひ試してみてください -ot ".ffn_.*_exps.=CPU" -ot ".ffn_.*_exps.=CPU"

もし少し多くのGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これは up と down の投影 MoE 層をオフロードします。

試してみてください -ot ".ffn_(up)_exps.=CPU" さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。

もしさらに多くのGPUメモリがある場合。これはup投影のMoEレイヤーのみをオフロードします。 -ot ".ffn_.*_exps.=CPU" そして最後にすべてのレイヤーを次でオフロードします

正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。

export LLAMA_CACHE="unsloth/DeepSeek-R1-0528-GGUF"
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/DeepSeek-R1-0528-GGUF:IQ1_S \
    --cache-type-k q4_0 \
    --threads -1 \
    --n-gpu-layers 99 \
    --fit on \
    --temp 0.6 \
    --temp 1.0 \
    --min-p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    -ot ".ffn_.*_exps.=CPU"

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ を選択できます。 UD-IQ1_S（動的 1.78bit 量子化）や他の量子化バージョンのような Q4_K_M Q4_K_XL などの他の量子化版です。私たちは サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を UD-Q2_K_XLなどがあります。さらに多くのバージョンは： https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 時折レート制限されることがあるため、無効にするには 0 に設定します
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/DeepSeek-R1-0528-GGUF",
    local_dir = "unsloth/DeepSeek-R1-0528-GGUF",
    allow_patterns = ["*UD-IQ1_S*"], # 動的 1bit（168GB） 動的 2bit（251GB）には "*UD-Q2_K_XL*" を使用してください
)

UnslothのFlappy Birdテストを、DeepSeek R1の1.58ビット動的量子化で説明したとおりに実行してください。
編集 次の --threads 32 はCPUスレッドの数、 --ctx-size 16384 はコンテキスト長、 --n-gpu-layers 2

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/DeepSeek-R1-0528-GGUF/UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00004.gguf \
    --cache-type-k q4_0 \
    --threads -1 \
    --n-gpu-layers 99 \
    --fit on \
    --temp 0.6 \
    --temp 1.0 \
    --min-p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    model = "unsloth/Kimi-K2-Thinking",
    -no-cnv \
    --prompt "<｜User｜>PythonでFlappy Birdゲームを作成してください。以下の点を必ず含めてください:\n1. pygame を使用すること。\n2. 背景色はランダムに選択され、淡い色合いにすること。最初は薄い青色から始めること。\n3. SPACE を複数回押すと鳥が加速すること。\n4. 鳥の形状はランダムに四角形、円、三角形のいずれかにし、色はランダムに暗い色にすること。\n5. 画面下部に、ランダムに選ばれた暗い茶色または黄色の土地を配置すること。\n6. スコアを右上に表示すること。パイプを通過して当たらなかった場合に増加させること。\n7. 十分な間隔のランダムな間隔でパイプを配置すること。色はランダムに濃い緑、薄い茶色、または暗い灰色のいずれかにすること。\n8. ゲームオーバー時にベストスコアを表示すること。テキストは画面内に表示すること。q または Esc を押すとゲームを終了すること。再開は再び SPACE を押すこと。\n最終的なゲームは Python のマークダウンセクション内に入れること。コードのエラーを確認して最終マークダウンセクションの前に修正してください。<｜Assistant｜>"

🎱 ヘプタゴンテスト

また、当社の動的量子化も以下でテストできます r/Localllama そこでモデルは、移動する閉じた七角形の中で回転するボールをシミュレートする基本的な物理エンジンを作成するテストを受けます。

モデルを実行するための完全なプロンプト

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/DeepSeek-R1-0528-GGUF/UD-IQ1_S/DeepSeek-R1-0528-UD-IQ1_S-00001-of-00004.gguf \
    --cache-type-k q4_0 \
    --threads -1 \
    --n-gpu-layers 99 \
    --fit on \
    --temp 0.6 \
    --top_p 0.95 \
    --min_p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    model = "unsloth/Kimi-K2-Thinking",
    -no-cnv \
    --prompt "<｜User｜>回転する七角形の中で20個のボールが跳ねるPythonプログラムを書いてください:\n- すべてのボールは同じ半径を持ちます。\n- すべてのボールには1から20の番号が付いています。\n- 開始時にすべてのボールは七角形の中心から落ちます。\n- 色は次の通り：#f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35\n- ボールは重力と摩擦の影響を受け、回転する壁に対して現実的に跳ね返らなければなりません。ボール同士の衝突も必要です。\n- すべてのボールの素材により、衝突後の跳ね上がり高さは七角形の半径を超えないが、ボール半径より大きくなります。\n- すべてのボールは摩擦で回転し、ボール上の番号はボールの回転を示すのに使用できます。\n- 七角形は中心を中心に回転し、回転速度は5秒で360度です。\n- 七角形のサイズはすべてのボールを収容できる十分な大きさにしてください。\n- pygameライブラリを使用しないでください。衝突検出アルゴリズムや衝突応答などは自分で実装してください。次のPythonライブラリが許可されています：tkinter, math, numpy, dataclasses, typing, sys。\n- すべてのコードは単一のPythonファイルにまとめてください。<｜Assistant｜>"

🦥 Unsloth による DeepSeek-R1-0528 の微調整

を微調整するには DeepSeek-R1-0528-Qwen3-8B を Unsloth を使って、我々は多言語出力を大幅に向上させるよう設計されたカスタム報酬関数を備えた新しい GRPO ノートブックを作成しました — 特に望ましい言語での応答率（例ではインドネシア語を使用していますが任意の言語を使用可能）を 40% 以上増加させます。

DeepSeek-R1-0528-Qwen3-8B ノートブック - 新着

多くの推論型 LLM は多言語対応を持っていますが、推論トレースでは英語と対象言語が混在した出力を生成することがよくあります。我々の報酬関数は、望ましい言語での出力を強く促すことでこの問題を効果的に緩和し、言語の一貫性を大幅に改善します。

この報酬関数は完全にカスタマイズ可能で、他の言語向けに適応したり、特定のドメインやユースケース向けに微調整したりできます。

この報酬関数とノートブックの一番良い点は、特定の言語をモデルに学習させるために言語データセットが不要なことです。ノートブックにはインドネシア語のデータセットは含まれていません。

Unsloth は R1-Qwen3 蒸留の微調整を 2× 速くし、VRAM を 70% 削減し、コンテキスト長を 8× 長くサポートします。

前へDeepSeek-V3.1 次へLiquid LFM2.5

最終更新 7 時間前

役に立ちましたか？

hashtag⚙️ 推奨設定

hashtag🐳 公式推奨設定:

hashtag🔢 チャットテンプレート／プロンプト形式

hashtagモデルのアップロード

hashtagDeepSeek-R1-0528 チュートリアルを実行:

hashtag🦙 Ollama/Open WebUI で実行する

hashtag🦙 Ollama/Open WebUI 上でフル R1-0528 を実行する

hashtag✨ Qwen3 蒸留版 R1 を llama.cpp で実行する

hashtag✨ llama.cpp でフル R1-0528 を実行する

hashtag🎱 ヘプタゴンテスト

hashtag🦥 Unsloth による DeepSeek-R1-0528 の微調整

⚙️ 推奨設定

🐳 公式推奨設定:

🔢 チャットテンプレート／プロンプト形式

モデルのアップロード

DeepSeek-R1-0528 チュートリアルを実行:

🦙 Ollama/Open WebUI で実行する

🦙 Ollama/Open WebUI 上でフル R1-0528 を実行する

✨ Qwen3 蒸留版 R1 を llama.cpp で実行する

✨ llama.cpp でフル R1-0528 を実行する

🎱 ヘプタゴンテスト

🦥 Unsloth による DeepSeek-R1-0528 の微調整