🐋DeepSeek-R1-0528: ローカルで実行する方法
Qwen3 を含む DeepSeek-R1-0528 を自分のローカルデバイスで実行する方法のガイド!
DeepSeek-R1-0528 は DeepSeek の R1 推論モデルの新しい更新版です。フルの 671B パラメータモデルは 715GB のディスク容量を必要とします。量子化された動的な 1.66 ビット バージョンは 162GB を使用します(サイズが -80% 減少)。GGUF: DeepSeek-R1-0528-GGUF
DeepSeek はまた Qwen3(8B)を微調整して作成した R1-0528 の蒸留版も公開しました。蒸留版は Qwen3(235B)と同等の性能を達成します。 あなたはまた Qwen3 Distill を微調整できます Unsloth で. Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF
すべてのアップロードはUnslothを使用しています Dynamic 2.0 SOTA の 5-shot MMLU と KL ダイバージェンス性能を実現しており、量子化された DeepSeek LLM を最小限の精度低下で実行およびファインチューニングできます。
チュートリアル ナビゲーション:
llama.cpp で実行するOllama/Open WebUI で実行するR1-0528 の微調整
新着: ツールコールとチャットテンプレートの修正に大幅な改善。
新しい TQ1_0 動的 1.66 ビット量子化 - サイズは 162GB。192GB の RAM(Mac を含む)や Ollama ユーザーに最適です。試してみてください: ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
⚙️ 推奨設定
DeepSeek-R1-0528-Qwen3-8B については、モデルはほとんどどんな環境にも収まります。20GB 程度の RAM しかない環境でも動作します。事前準備は不要です。 しかし、サイズが 715GB のフル R1-0528 モデルについては、追加の準備が必要です。1.78 ビット(IQ1_S)量子化は 1x 24GB GPU(全レイヤーをオフロードする構成)に収まります。この構成で追加の 128GB RAM がある場合、約 5 トークン/秒 を期待できます。
この量子化を実行するには少なくとも 64GB の RAM を推奨します(GPU がない場合は 1 トークン/秒 程度になります)。最適な性能を得るには少なくとも 180GB のユニファイドメモリまたは合計 180GB の RAM+VRAM があれば 5+ トークン/秒 を期待できます。
サイズと精度のバランスを取るために、2.7 ビット(Q2_K_XL)または 2.4 ビット(IQ2_XXS)の量子化を使用することをお勧めします!2.4 ビットのものもよく動作します。
必須ではありませんが、最高のパフォーマンスを得るには、ダウンロードする量子化のサイズと VRAM + RAM の合計を揃えてください。
🐳 公式推奨設定:
によれば DeepSeek、これらは R1(R1-0528 と Qwen3 蒸留版は同じ設定を使用する必要があります)の推論に対する推奨設定です:
次の値を設定してください 、これらが Kimi K2 推論の推奨設定です: 反復や非一貫性を減らすため。
次を設定してください top_p を 0.95 に (推奨)
複数のテストを実行し、結果を平均化して信頼できる評価を行ってください。
🔢 チャットテンプレート/プロンプト形式
R1-0528 は元の R1 モデルと同じチャットテンプレートを使用します。強制的に <think>\n する必要はありませんが、追加することは可能です!
BOS は強制的に追加され、EOS は各インタラクションを区切ります。推論時の BOS トークンの重複を避けるために、次だけを呼び出すべきです tokenizer.encode(..., add_special_tokens = False) チャットテンプレートは BOS トークンも自動で追加するためです。
llama.cpp / GGUF 推論では、BOS は自動で追加されるためスキップすべきです:
最新の <think> と </think> トークンにはそれぞれ専用のトークンが割り当てられます。
モデルのアップロード
当社のすべてのアップロード - imatrix ベースまたは動的でないものを含め、会話、コーディング、および言語タスクに最適化されたキャリブレーションデータセットを利用しています。
Qwen3(8B)蒸留版: DeepSeek-R1-0528-Qwen3-8B-GGUF
以下にフル DeepSeek-R1-0528 モデルのアップロードがあります:
また、次もアップロードしました IQ4_NL と Q4_1 それぞれ ARM および Apple デバイス向けに特に高速に動作するクオンタイズです。
732GB また、私たちは、およびオリジナルの FP8(float8)フォーマット.
DeepSeek-R1-0528 チュートリアルを実行:
🦙 Ollama/Open WebUI で実行する
Ollamaで実行する
をインストールしてくださいもしまだなら!サイズが 32B までのモデルしか実行できません。フルの 720GB R1-0528 モデルを実行するには、 まだインストールしていない場合!モデルのより多くのバリアントを実行するには、.
curl -fsSL https://ollama.com/install.sh | sh
モデルを実行してください!失敗した場合は別のターミナルでollama serveを呼び出すことができます!私たちはすべての修正と推奨パラメータ(temperatureなど)をparams
(新)Ollama でフル R1-0528 モデルを実行するには、TQ1_0(162GB 量子化)を使用できます:
🦙 Ollama/Open WebUI 上でフル R1-0528 を実行する
Open WebUI は R1 を実行する手順をステップバイステップのチュートリアルにまとめています。R1-0528 については単に R1 を新しい 0528 量子化に置き換えるだけで済みます: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/
(新)Ollama でフル R1-0528 モデルを実行するには、TQ1_0(162GB 量子化)を使用できます:
TQ1_0(162GB)より大きい量子化を Ollama 上で使用したい場合は、まず 3 つの GGUF 分割ファイルを下のコードのように 1 つに結合する必要があります。その後ローカルでモデルを実行してください。
✨ Qwen3 蒸留版 R1 を llama.cpp で実行する
フル 720GB の R1-0528 モデルを実行するには、 まだインストールしていない場合!モデルのより多くのバリアントを実行するには、. 最新の
llama.cppを GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください-DGGML_CUDA=ONに-DGGML_CUDA=OFFGPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください-DGGML_CUDA=OFFその後通常通り続行してください — Metalサポートはデフォルトで有効です。
その後、モデルをダウンロードするために直接 llama.cpp を使用してください:
✨ llama.cpp でフル R1-0528 を実行する
最新の
llama.cppを GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください-DGGML_CUDA=ONに-DGGML_CUDA=OFFGPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください-DGGML_CUDA=OFFその後通常通り続行してください — Metalサポートはデフォルトで有効です。
もし直接
llama.cppモデルを直接ロードするには、下記を行えます:(:IQ1_S)は量子化タイプです。Hugging Face(ポイント 3)からもダウンロードできます。これは以下と類似していますollama runに類似しています。使用してくださいexport LLAMA_CACHE="folder"llama.cpp特定の場所に保存するために。
ぜひ試してみてください -ot ".ffn_.*_exps.=CPU" -ot ".ffn_.*_exps.=CPU"
もし少し多くのGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これは up と down の投影 MoE 層をオフロードします。
試してみてください -ot ".ffn_(up)_exps.=CPU" さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。
もしさらに多くのGPUメモリがある場合。これはup投影のMoEレイヤーのみをオフロードします。 -ot ".ffn_.*_exps.=CPU" そして最後にすべてのレイヤーを次でオフロードします
正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。
モデルをダウンロードするには(をインストールした後)
モデルをダウンロードするには(を選択できます。UD-IQ1_S(動的 1.78bit 量子化)や他の量子化バージョンのようなQ4_K_MQ4_K_XL などの他の量子化版です。私たちはサイズと精度のバランスを取るために私たちの2.7ビット動的量子化をUD-Q2_K_XLなどがあります。さらに多くのバージョンは: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF
UnslothのFlappy Birdテストを、DeepSeek R1の1.58ビット動的量子化で説明したとおりに実行してください。
編集
次の--threads 32はCPUスレッドの数、--ctx-size 16384はコンテキスト長、--n-gpu-layers 2
🎱 ヘプタゴンテスト
また、当社の動的量子化も 以下 でテストできます r/Localllama そこでモデルは、移動する閉じた七角形の中で回転するボールをシミュレートする基本的な物理エンジンを作成するテストを受けます。

🦥 Unsloth による DeepSeek-R1-0528 の微調整
を微調整するには DeepSeek-R1-0528-Qwen3-8B を Unsloth を使って、我々は多言語出力を大幅に向上させるよう設計されたカスタム報酬関数を備えた新しい GRPO ノートブックを作成しました — 特に望ましい言語での応答率(例ではインドネシア語を使用していますが任意の言語を使用可能)を 40% 以上増加させます。
多くの推論型 LLM は多言語対応を持っていますが、推論トレースでは英語と対象言語が混在した出力を生成することがよくあります。我々の報酬関数は、望ましい言語での出力を強く促すことでこの問題を効果的に緩和し、言語の一貫性を大幅に改善します。
この報酬関数は完全にカスタマイズ可能で、他の言語向けに適応したり、特定のドメインやユースケース向けに微調整したりできます。
この報酬関数とノートブックの一番良い点は、特定の言語をモデルに学習させるために言語データセットが不要なことです。ノートブックにはインドネシア語のデータセットは含まれていません。
Unsloth は R1-Qwen3 蒸留の微調整を 2× 速くし、VRAM を 70% 削減し、コンテキスト長を 8× 長くサポートします。
最終更新
役に立ちましたか?

