🐋DeepSeek-R1-0528:ローカルでの実行方法
Qwen3 を含む DeepSeek-R1-0528 を自分のローカルデバイスで実行する方法のガイド!
DeepSeek-R1-0528 は DeepSeek の R1 推論モデルの新しいアップデートです。完全な 671B パラメータモデルは 715GB のディスク容量を必要とします。量子化された動的 1.66ビット バージョンは 162GB を使用します(サイズが -80% 減少)。GGUF: DeepSeek-R1-0528-GGUF
DeepSeek はまた Qwen3(8B)をファインチューニングして得られた R1-0528 の蒸留版も公開しました。蒸留モデルは Qwen3(235B)と同等の性能を達成しています。 また Qwen3 Distill をファインチューン Unsloth で。Qwen3 GGUF: DeepSeek-R1-0528-Qwen3-8B-GGUF
すべてのアップロードはUnslothを使用しています Dynamic 2.0 SOTAの5ショットMMLUおよびKLダイバージェンスの性能を目的としており、量子化されたDeepSeek LLMを最小限の精度損失で実行および微調整できます。
チュートリアルの案内:
llama.cppで実行するOllama / Open WebUI で実行するR1-0528 のファインチューニング
新着: ツールコールの大幅な改善とチャットテンプレートの修正。
新しい TQ1_0 動的 1.66ビット量子化 - サイズは 162GB。192GB RAM(Mac を含む)や Ollama ユーザーに最適です。試す: ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
⚙️ 推奨設定
DeepSeek-R1-0528-Qwen3-8B はほとんどの環境に収まり、20GB 程度の RAM しかない環境でも動作します。事前準備は不要です。 しかし、サイズが 715GB のフル R1-0528 モデルについては追加の準備が必要です。1.78ビット(IQ1_S)量子化は 1x 24GB GPU(全レイヤーをオフロード)に収まります。この構成で追加の 128GB RAM がある場合、約 5 トークン/秒 を期待できます。
この量子化を実行するには少なくとも 64GB の RAM を推奨します(GPU がない場合は 1 トークン/秒 になります)。最適な性能を得るには少なくとも 180GB の統一メモリまたは合計 180GB の RAM+VRAM で 5+ トークン/秒 を得られます。
サイズと精度のバランスを取るために、2.7ビット(Q2_K_XL)または 2.4ビット(IQ2_XXS)量子化の使用を推奨します!2.4ビットのものも良く動作します。
必須ではありませんが、最高の性能を得るには、ダウンロードする量子化のサイズと VRAM + RAM の合計を合わせてください。
🐳 公式推奨設定:
によれば、 DeepSeek、これらは R1(R1-0528 と Qwen3 蒸留版は同じ設定を使用するべきです)の推論に対する推奨設定です:
を設定してください temperature 0.6 反復や一貫性の欠如を減らすため。
を設定してください top_p を0.95に (推奨)
複数のテストを実行して結果を平均化し、信頼できる評価を行ってください。
🔢 チャットテンプレート/プロンプト形式
R1-0528 は元の R1 モデルと同じチャットテンプレートを使用します。を強制する必要はありませんが <think>\n 、それでも追加することはできます!
BOS(文頭)は強制的に追加され、EOS(文末)は各インタラクションを区切ります。推論中の BOS 二重追加を避けるため、次のみを呼び出すべきです tokenizer.encode(..., add_special_tokens = False) チャットテンプレートは自動的に BOS トークンも追加するためです。
llama.cpp / GGUF 推論では BOS をスキップするべきです(自動的に追加されるため):
その <think> および </think> トークンはそれぞれ専用のトークンを持ちます。
モデルのアップロード
当社の全てのアップロードは imatrixベースでも動的でもないものを含め、会話、コーディング、言語タスクに特化して最適化されたキャリブレーションデータセットを利用しています。
Qwen3(8B)蒸留版: DeepSeek-R1-0528-Qwen3-8B-GGUF
フル DeepSeek-R1-0528 モデルのアップロードは以下:
私たちはまた IQ4_NL および Q4_1 これらの量子化はそれぞれARMおよびAppleデバイスで特に高速に動作します。
また、 BF16フォーマット、およびオリジナルの FP8(float8)フォーマット.
DeepSeek-R1-0528 チュートリアルを実行:
🦙 Ollama / Open WebUI で実行する
インストールしてください
ollamaまだでない場合は!最大 32B までのモデルしか実行できません。フル 720GB の R1-0528 モデルを実行するには、 ここを参照してください.
モデルを実行してください!失敗した場合は別の端末で
ollama serveを呼び出せます!私たちのすべての修正と推奨パラメータ(temperatureなど)はparamsにHugging Faceのアップロードで含めています!
(新) Ollama でフル R1-0528 モデルを実行するには、TQ1_0(162GB 量子化)を使用できます:
🦙 Ollama/Open WebUI でフル R1-0528 を実行
Open WebUI は R1 の実行方法について段階的チュートリアルを作成しており、R1-0528 については R1 を新しい 0528 量子化に置き換えるだけで済みます: docs.openwebui.com/tutorials/integrations/deepseekr1-dynamic/
(新) Ollama でフル R1-0528 モデルを実行するには、TQ1_0(162GB 量子化)を使用できます:
TQ1_0(162GB)より大きい量子化のいずれかを Ollama で使用したい場合、まず 3 つの GGUF 分割ファイルを下記のコードのように 1 つに結合する必要があります。その後、モデルをローカルで実行する必要があります。
✨ Qwen3 蒸留 R1 を llama.cpp で実行
フル 720GB の R1-0528 モデルを実行するには、 ここを参照してください. 最新の
llama.cppを GitHub で入手できます。下のビルド手順に従うこともできます。変更してください-DGGML_CUDA=ONから-DGGML_CUDA=OFFGPU がない場合や CPU 推論のみを行いたい場合は。
次に llama.cpp を直接使用してモデルをダウンロードします:
✨ llama.cpp でフル R1-0528 を実行
最新の
llama.cppを GitHub で入手できます。下のビルド手順に従うこともできます。変更してください-DGGML_CUDA=ONから-DGGML_CUDA=OFFGPU がない場合や CPU 推論のみを行いたい場合は。
直接モデルを読み込むために
llama.cppモデルを直接ロードするには、以下を実行できます:(:IQ1_S)は量子化タイプです。Hugging Face(項目3)経由でもダウンロードできます。これは次と類似していますollama runに類似しています。使用してくださいexport LLAMA_CACHE="folder"で強制的にllama.cpp特定の場所に保存するために。
ぜひお試しください -ot ".ffn_.*_exps.=CPU" ですべてのMoE層をCPUにオフロードします!これにより、非MoE層を1つのGPUに収められるようになり、生成速度が向上します。GPU容量が大きい場合は正規表現をカスタマイズしてより多くの層を適合させることができます。
もしもう少しGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これはupおよびdownの投影MoE層をオフロードします。
試してみてください -ot ".ffn_(up)_exps.=CPU" もしさらに多くのGPUメモリがある場合。これはup投影MoE層のみをオフロードします。
そして最後にすべての層を次でオフロードします -ot ".ffn_.*_exps.=CPU" これは最小のVRAMを使用します。
正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は6層目以降のgate、up、downのMoE層をオフロードすることを意味します。
(以下をインストールした後に)モデルをダウンロードします
pip install huggingface_hub hf_transfer)。量子化バージョンとして選べますUD-IQ1_S(ダイナミック1.78bit量子化)や他の量子化バージョンのようなQ4_K_M)を選択できます。私たちは 2.7ビット動的量子化の使用を推奨しますUD-Q2_K_XLはサイズと精度のバランスをとるためです。その他のバージョンは: https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF
DeepSeek R1向けの1.58ビット動的量子化で説明したように、UnslothのFlappy Birdテストを実行してください。
編集
--threads 32でCPUスレッド数を編集できます、--ctx-size 16384でコンテキスト長を、--n-gpu-layers 2で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。
🎱 ヘプタグオン(七角形)テスト
また、我々の動的量子化も介してテストできます また、以下に従ってダイナミック量子化をHeptagonテストで試すこともできます、 r/Localllama

🦥 Unsloth を使った DeepSeek-R1-0528 のファインチューニング
をファインチューニングするには DeepSeek-R1-0528-Qwen3-8B Unsloth を使用したファインチューニングのために、我々は多言語出力を大幅に強化するカスタム報酬関数を特徴とする新しい GRPO ノートブックを作成しました—具体的には望ましい言語での応答率を(我々の例ではインドネシア語を使用していますが任意の言語を使用できます)40%以上増加させます。
多くの推論型 LLM は多言語機能を持っていますが、推論の過程で英語と対象言語が混在した出力を生成することがよくあります。我々の報酬関数は望ましい言語での出力を強く促すことでこの問題を効果的に緩和し、言語の一貫性を大幅に改善します。
この報酬関数は完全にカスタマイズ可能で、他の言語向けや特定のドメインやユースケース向けに適応させることができます。
この報酬関数とノートブックの最も良い点は、モデルに特定の言語を学習させるための言語データセットが不要なことです。ノートブックにはインドネシア語のデータセットは含まれていません。
Unsloth は R1-Qwen3 蒸留のファインチューニングを 2× 速くし、VRAM 使用量を 70% 削減し、コンテキスト長を 8× 長くサポートします。
最終更新
役に立ちましたか?

