🐋DeepSeek-R1-0528:ローカルでの実行方法

Qwen3 を含む DeepSeek-R1-0528 を自分のローカルデバイスで実行する方法のガイド!

DeepSeek-R1-0528 は DeepSeek の R1 推論モデルの新しいアップデートです。完全な 671B パラメータモデルは 715GB のディスク容量を必要とします。量子化された動的 1.66ビット バージョンは 162GB を使用します(サイズが -80% 減少)。GGUF: DeepSeek-R1-0528-GGUFarrow-up-right

DeepSeek はまた Qwen3(8B)をファインチューニングして得られた R1-0528 の蒸留版も公開しました。蒸留モデルは Qwen3(235B)と同等の性能を達成しています。 また Qwen3 Distill をファインチューン Unsloth で。Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUFarrow-up-right

すべてのアップロードはUnslothを使用しています Dynamic 2.0 SOTAの5ショットMMLUおよびKLダイバージェンスの性能を目的としており、量子化されたDeepSeek LLMを最小限の精度損失で実行および微調整できます。

チュートリアルの案内:

llama.cppで実行するOllama / Open WebUI で実行するR1-0528 のファインチューニング

circle-check

⚙️ 推奨設定

DeepSeek-R1-0528-Qwen3-8B はほとんどの環境に収まり、20GB 程度の RAM しかない環境でも動作します。事前準備は不要です。 しかし、サイズが 715GB のフル R1-0528 モデルについては追加の準備が必要です。1.78ビット(IQ1_S)量子化は 1x 24GB GPU(全レイヤーをオフロード)に収まります。この構成で追加の 128GB RAM がある場合、約 5 トークン/秒 を期待できます。

この量子化を実行するには少なくとも 64GB の RAM を推奨します(GPU がない場合は 1 トークン/秒 になります)。最適な性能を得るには少なくとも 180GB の統一メモリまたは合計 180GB の RAM+VRAM で 5+ トークン/秒 を得られます。

サイズと精度のバランスを取るために、2.7ビット(Q2_K_XL)または 2.4ビット(IQ2_XXS)量子化の使用を推奨します!2.4ビットのものも良く動作します。

circle-check

🐳 公式推奨設定:

によれば、 DeepSeekarrow-up-right、これらは R1(R1-0528 と Qwen3 蒸留版は同じ設定を使用するべきです)の推論に対する推奨設定です:

  • を設定してください temperature 0.6 反復や一貫性の欠如を減らすため。

  • を設定してください top_p を0.95に (推奨)

  • 複数のテストを実行して結果を平均化し、信頼できる評価を行ってください。

🔢 チャットテンプレート/プロンプト形式

R1-0528 は元の R1 モデルと同じチャットテンプレートを使用します。を強制する必要はありませんが <think>\n 、それでも追加することはできます!

BOS(文頭)は強制的に追加され、EOS(文末)は各インタラクションを区切ります。推論中の BOS 二重追加を避けるため、次のみを呼び出すべきです tokenizer.encode(..., add_special_tokens = False) チャットテンプレートは自動的に BOS トークンも追加するためです。 llama.cpp / GGUF 推論では BOS をスキップするべきです(自動的に追加されるため):

その <think> および </think> トークンはそれぞれ専用のトークンを持ちます。

モデルのアップロード

当社の全てのアップロードは imatrixベースでも動的でもないものを含め、会話、コーディング、言語タスクに特化して最適化されたキャリブレーションデータセットを利用しています。

私たちはまた IQ4_NLarrow-up-right および Q4_1arrow-up-right これらの量子化はそれぞれARMおよびAppleデバイスで特に高速に動作します。

MoE ビット数
タイプ + リンク
ディスクサイズ
詳細

1.66ビット

162GB

1.92/1.56ビット

1.78ビット

185GB

2.06/1.56ビット

1.93ビット

200GB

2.5/2.06/1.56

2.42ビット

216GB

2.5/2.06ビット

2.71ビット

251GB

3.5/2.5ビット

3.12ビット

273GB

3.5/2.06ビット

3.5ビット

296GB

4.5/3.5ビット

4.5ビット

384GB

5.5/4.5ビット

5.5ビット

481GB

6.5/5.5ビット

また、 BF16フォーマットarrow-up-right、およびオリジナルの FP8(float8)フォーマットarrow-up-right.

DeepSeek-R1-0528 チュートリアルを実行:

🦙 Ollama / Open WebUI で実行する

  1. インストールしてください ollama まだでない場合は!最大 32B までのモデルしか実行できません。フル 720GB の R1-0528 モデルを実行するには、 ここを参照してください.

  1. モデルを実行してください!失敗した場合は別の端末で ollama serveを呼び出せます!私たちのすべての修正と推奨パラメータ(temperatureなど)は params にHugging Faceのアップロードで含めています!

  1. (新) Ollama でフル R1-0528 モデルを実行するには、TQ1_0(162GB 量子化)を使用できます:

🦙 Ollama/Open WebUI でフル R1-0528 を実行

Open WebUI は R1 の実行方法について段階的チュートリアルを作成しており、R1-0528 については R1 を新しい 0528 量子化に置き換えるだけで済みます: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/arrow-up-right

(新) Ollama でフル R1-0528 モデルを実行するには、TQ1_0(162GB 量子化)を使用できます:

TQ1_0(162GB)より大きい量子化のいずれかを Ollama で使用したい場合、まず 3 つの GGUF 分割ファイルを下記のコードのように 1 つに結合する必要があります。その後、モデルをローカルで実行する必要があります。

✨ Qwen3 蒸留 R1 を llama.cpp で実行

  1. フル 720GB の R1-0528 モデルを実行するには、 ここを参照してください. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. 次に llama.cpp を直接使用してモデルをダウンロードします:

✨ llama.cpp でフル R1-0528 を実行

  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. 直接モデルを読み込むために llama.cpp モデルを直接ロードするには、以下を実行できます:(:IQ1_S)は量子化タイプです。Hugging Face(項目3)経由でもダウンロードできます。これは次と類似しています ollama run に類似しています。使用してください export LLAMA_CACHE="folder" で強制的に llama.cpp 特定の場所に保存するために。

circle-check
  1. (以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。量子化バージョンとして選べます UD-IQ1_S(ダイナミック1.78bit量子化)や他の量子化バージョンのような Q4_K_M )を選択できます。私たちは 2.7ビット動的量子化の使用を推奨します UD-Q2_K_XL はサイズと精度のバランスをとるためです。その他のバージョンは: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUFarrow-up-right

  1. DeepSeek R1向けの1.58ビット動的量子化で説明したように、UnslothのFlappy Birdテストを実行してください。

  2. 編集 --threads 32 でCPUスレッド数を編集できます、 --ctx-size 16384 でコンテキスト長を、 --n-gpu-layers 2 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。

🎱 ヘプタグオン(七角形)テスト

また、我々の動的量子化も介してテストできます また、以下に従ってダイナミック量子化をHeptagonテストで試すこともできます、arrow-up-right r/Localllama

目標は七角形を回転させ、七角形内のボールが動くことです。
chevron-rightモデルを実行するための完全なプロンプトhashtag

🦥 Unsloth を使った DeepSeek-R1-0528 のファインチューニング

をファインチューニングするには DeepSeek-R1-0528-Qwen3-8B Unsloth を使用したファインチューニングのために、我々は多言語出力を大幅に強化するカスタム報酬関数を特徴とする新しい GRPO ノートブックを作成しました—具体的には望ましい言語での応答率を(我々の例ではインドネシア語を使用していますが任意の言語を使用できます)40%以上増加させます。

多くの推論型 LLM は多言語機能を持っていますが、推論の過程で英語と対象言語が混在した出力を生成することがよくあります。我々の報酬関数は望ましい言語での出力を強く促すことでこの問題を効果的に緩和し、言語の一貫性を大幅に改善します。

この報酬関数は完全にカスタマイズ可能で、他の言語向けや特定のドメインやユースケース向けに適応させることができます。

circle-check

Unsloth は R1-Qwen3 蒸留のファインチューニングを 2× 速くし、VRAM 使用量を 70% 削減し、コンテキスト長を 8× 長くサポートします。

最終更新

役に立ちましたか?