🐋DeepSeek-R1-0528: ローカルで実行する方法

Qwen3 を含む DeepSeek-R1-0528 を自分のローカルデバイスで実行する方法のガイド!

DeepSeek-R1-0528 は DeepSeek の R1 推論モデルの新しい更新版です。フルの 671B パラメータモデルは 715GB のディスク容量を必要とします。量子化された動的な 1.66 ビット バージョンは 162GB を使用します(サイズが -80% 減少)。GGUF: DeepSeek-R1-0528-GGUFarrow-up-right

DeepSeek はまた Qwen3(8B)を微調整して作成した R1-0528 の蒸留版も公開しました。蒸留版は Qwen3(235B)と同等の性能を達成します。 あなたはまた Qwen3 Distill を微調整できます Unsloth で. Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUFarrow-up-right

すべてのアップロードはUnslothを使用しています Dynamic 2.0 SOTA の 5-shot MMLU と KL ダイバージェンス性能を実現しており、量子化された DeepSeek LLM を最小限の精度低下で実行およびファインチューニングできます。

チュートリアル ナビゲーション:

llama.cpp で実行するOllama/Open WebUI で実行するR1-0528 の微調整

circle-check

⚙️ 推奨設定

DeepSeek-R1-0528-Qwen3-8B については、モデルはほとんどどんな環境にも収まります。20GB 程度の RAM しかない環境でも動作します。事前準備は不要です。 しかし、サイズが 715GB のフル R1-0528 モデルについては、追加の準備が必要です。1.78 ビット(IQ1_S)量子化は 1x 24GB GPU(全レイヤーをオフロードする構成)に収まります。この構成で追加の 128GB RAM がある場合、約 5 トークン/秒 を期待できます。

この量子化を実行するには少なくとも 64GB の RAM を推奨します(GPU がない場合は 1 トークン/秒 程度になります)。最適な性能を得るには少なくとも 180GB のユニファイドメモリまたは合計 180GB の RAM+VRAM があれば 5+ トークン/秒 を期待できます。

サイズと精度のバランスを取るために、2.7 ビット(Q2_K_XL)または 2.4 ビット(IQ2_XXS)の量子化を使用することをお勧めします!2.4 ビットのものもよく動作します。

circle-check

🐳 公式推奨設定:

によれば DeepSeekarrow-up-right、これらは R1(R1-0528 と Qwen3 蒸留版は同じ設定を使用する必要があります)の推論に対する推奨設定です:

  • 次の値を設定してください 、これらが Kimi K2 推論の推奨設定です: 反復や非一貫性を減らすため。

  • 次を設定してください top_p を 0.95 に (推奨)

  • 複数のテストを実行し、結果を平均化して信頼できる評価を行ってください。

🔢 チャットテンプレート/プロンプト形式

R1-0528 は元の R1 モデルと同じチャットテンプレートを使用します。強制的に <think>\n する必要はありませんが、追加することは可能です!

BOS は強制的に追加され、EOS は各インタラクションを区切ります。推論時の BOS トークンの重複を避けるために、次だけを呼び出すべきです tokenizer.encode(..., add_special_tokens = False) チャットテンプレートは BOS トークンも自動で追加するためです。 llama.cpp / GGUF 推論では、BOS は自動で追加されるためスキップすべきです:

最新の <think></think> トークンにはそれぞれ専用のトークンが割り当てられます。

モデルのアップロード

当社のすべてのアップロード - imatrix ベースまたは動的でないものを含め、会話、コーディング、および言語タスクに最適化されたキャリブレーションデータセットを利用しています。

また、次もアップロードしました IQ4_NLarrow-up-rightQ4_1arrow-up-right それぞれ ARM および Apple デバイス向けに特に高速に動作するクオンタイズです。

MoE ビット数
タイプ + リンク
ディスクサイズ
詳細

1.66ビット

162GB

1.92/1.56ビット

1.78ビット

185GB

2.06/1.56ビット

1.93ビット

200GB

2.5/2.06/1.56

2.42ビット

216GB

2.5/2.06ビット

2.71ビット

251GB

3.5/2.5ビット

3.12ビット

273GB

3.5/2.06ビット

3.5ビット

296GB

4.5/3.5ビット

5.5ビット

481GB

6.5/5.5ビット

732GB また、私たちはarrow-up-right、およびオリジナルの FP8(float8)フォーマットarrow-up-right.

DeepSeek-R1-0528 チュートリアルを実行:

🦙 Ollama/Open WebUI で実行する

  1. Ollamaで実行する をインストールしてください もしまだなら!サイズが 32B までのモデルしか実行できません。フルの 720GB R1-0528 モデルを実行するには、 まだインストールしていない場合!モデルのより多くのバリアントを実行するには、.

  1. curl -fsSL https://ollama.com/install.sh | sh モデルを実行してください!失敗した場合は別のターミナルでollama serve を呼び出すことができます!私たちはすべての修正と推奨パラメータ(temperatureなど)を params

  1. (新)Ollama でフル R1-0528 モデルを実行するには、TQ1_0(162GB 量子化)を使用できます:

🦙 Ollama/Open WebUI 上でフル R1-0528 を実行する

Open WebUI は R1 を実行する手順をステップバイステップのチュートリアルにまとめています。R1-0528 については単に R1 を新しい 0528 量子化に置き換えるだけで済みます: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/arrow-up-right

(新)Ollama でフル R1-0528 モデルを実行するには、TQ1_0(162GB 量子化)を使用できます:

TQ1_0(162GB)より大きい量子化を Ollama 上で使用したい場合は、まず 3 つの GGUF 分割ファイルを下のコードのように 1 つに結合する必要があります。その後ローカルでモデルを実行してください。

✨ Qwen3 蒸留版 R1 を llama.cpp で実行する

  1. フル 720GB の R1-0528 モデルを実行するには、 まだインストールしていない場合!モデルのより多くのバリアントを実行するには、. 最新の llama.cppGitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

  1. その後、モデルをダウンロードするために直接 llama.cpp を使用してください:

✨ llama.cpp でフル R1-0528 を実行する

  1. 最新の llama.cppGitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

  1. もし直接 llama.cpp モデルを直接ロードするには、下記を行えます:(:IQ1_S)は量子化タイプです。Hugging Face(ポイント 3)からもダウンロードできます。これは以下と類似しています ollama run に類似しています。 使用してください export LLAMA_CACHE="folder" llama.cpp 特定の場所に保存するために。

circle-check
  1. モデルをダウンロードするには(をインストールした後) モデルをダウンロードするには( を選択できます。 UD-IQ1_S(動的 1.78bit 量子化)や他の量子化バージョンのような Q4_K_M Q4_K_XL などの他の量子化版です。私たちは サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を UD-Q2_K_XLなどがあります。さらに多くのバージョンは: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUFarrow-up-right

  1. UnslothのFlappy Birdテストを、DeepSeek R1の1.58ビット動的量子化で説明したとおりに実行してください。

  2. 編集 次の --threads 32 はCPUスレッドの数、 --ctx-size 16384 はコンテキスト長、 --n-gpu-layers 2

🎱 ヘプタゴンテスト

また、当社の動的量子化も 以下 でテストできます r/Localllamaarrow-up-right そこでモデルは、移動する閉じた七角形の中で回転するボールをシミュレートする基本的な物理エンジンを作成するテストを受けます。

目標は七角形を回転させ、七角形内のボールが動くようにすることです。
chevron-rightモデルを実行するための完全なプロンプトhashtag

🦥 Unsloth による DeepSeek-R1-0528 の微調整

を微調整するには DeepSeek-R1-0528-Qwen3-8B を Unsloth を使って、我々は多言語出力を大幅に向上させるよう設計されたカスタム報酬関数を備えた新しい GRPO ノートブックを作成しました — 特に望ましい言語での応答率(例ではインドネシア語を使用していますが任意の言語を使用可能)を 40% 以上増加させます。

多くの推論型 LLM は多言語対応を持っていますが、推論トレースでは英語と対象言語が混在した出力を生成することがよくあります。我々の報酬関数は、望ましい言語での出力を強く促すことでこの問題を効果的に緩和し、言語の一貫性を大幅に改善します。

この報酬関数は完全にカスタマイズ可能で、他の言語向けに適応したり、特定のドメインやユースケース向けに微調整したりできます。

circle-check

Unsloth は R1-Qwen3 蒸留の微調整を 2× 速くし、VRAM を 70% 削減し、コンテキスト長を 8× 長くサポートします。

最終更新

役に立ちましたか?