🐳DeepSeek-V3-0324: ローカルで実行する方法

当社の動的クオンタイズを使って精度を回復し、DeepSeek-V3-0324 をローカルで実行する方法。

circle-info

をご覧ください https://docs.unsloth.ai/basics/deepseek-r1-0528-how-to-run-locallyarrow-up-right (2025年5月28日更新)DeepSeekをより速く、より効率的に実行する方法を学びましょう!

DeepSeekがまた動き出しました!2024年12月と2025年1月にV3、R1 Zero、R1をリリースした後、DeepSeekはV3のチェックポイント/モデルを更新し、3月のアップデートを公開しました!

DeepSeekによると、MMLU-Proは+5.3%上昇して81.2%になりました。 GPQA +9.3ポイント。AIMEは+19.8%、LiveCodeBenchは+10.0%!彼らは以前のV3チェックポイントやGPT 4.5、Claude Sonnet 3.7などのモデルと比較したプロットを提供しました。 では、6710億パラメータのモデルをどうやってローカルで動かすのでしょうか?

MoE ビット数
タイプ
ディスクサイズ
精度
リンク
詳細

1.78ビット

IQ1_S

173GB

OK

2.06/1.56ビット

1.93ビット

IQ1_M

183GB

公平

2.5/2.06/1.56

2.42ビット

IQ2_XXS

203GB

推奨

2.5/2.06ビット

2.71ビット

Q2_K_XL

231GB

推奨

3.5/2.5ビット

3.5ビット

Q3_K_XL

320GB

素晴らしい

4.5/3.5ビット

4.5ビット

Q2_K_XL(動的2ビット量子化)や

406GB

最高

5.5/4.5ビット

circle-check

⚙️ 公式推奨設定

によると DeepSeekarrow-up-right、これらが推論の推奨設定です:

  • Temperature(温度)0.3 (コーディングではおそらく0.0、 こちらで確認)arrow-up-right)

  • Min_Pを0.00(オプション、但し0.01がよく機能します。llama.cppのデフォルトは0.1)

  • チャットテンプレート: <|User|>Pythonで簡単に遊べるFlappy Birdゲームを作成してください。完成したゲームはマークダウンのセクション内に配置してください。<|Assistant|>

  • BOSトークンは <|begin▁of▁sentence|> トークナイゼーション時に自動的に追加されます(手動で追加しないでください!)

  • DeepSeekは システムプロンプト も使用すると述べています(オプション)—それは中国語です: 该助手为DeepSeek Chat,由深度求索公司创造。\n今天是3月24日,星期一。 は次のように翻訳されます: このアシスタントはDeepSeek Chatで、DeepSeekによって作成されました。\n今日は3月24日、月曜日です。

  • KVキャッシュの量子化には8ビットを使用してください。4ビットでは明らかに性能が悪いことが分かっています。

📖 チュートリアル:llama.cppでDeepSeek-V3を実行する方法

  1. 最新の llama.cppGitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

circle-exclamation
  1. モデルをダウンロードするには(をインストールした後) モデルをダウンロードするには( を選択できます。 UD-IQ1_S(動的 1.78bit 量子化)や他の量子化バージョンのような Q4_K_M . 我々の2.7ビット動的量子化の使用を推奨します サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を UD-Q2_K_XLなどがあります。さらに多くのバージョンは: https://huggingface.co/unsloth/DeepSeek-V3-0324-GGUFarrow-up-right

  1. UnslothのFlappy Birdテストを、DeepSeek R1の1.58ビット動的量子化で説明したとおりに実行してください。

  2. 編集 次の --threads 32 はCPUスレッドの数、 --ctx-size 16384 はコンテキスト長、 --n-gpu-layers 2

chevron-right上記を実行すると、非常に異なる2つの結果が得られます。 標準の2ビット版: 結果を見るにはクリック (発作注意!) 動的2ビット版: 以下に結果を示します:hashtag

標準の2ビット。背景で失敗、衝突でも失敗

動的2ビット。プレイ可能なゲームの作成に成功。
  1. DeepSeek-R1と同様に、V3は61層あります。たとえば24GB GPUや80GB GPUでは、四捨五入してオフロードすると(メモリ不足になる場合は1層減らす)、次のようになります:

量子化
ファイルサイズ
24GB GPU
80GB GPU
2x80GB GPU

1.73bit

173GB

5

25

56

2.22bit

183GB

4

22

49

2.51bit

212GB

2

19

32

Mac / Apple デバイスでの実行

Apple Metalデバイスでは、次に注意してください: --n-gpu-layers。マシンがメモリ不足になる場合はこれを減らしてください。128GBの統一メモリマシンでは、およそ59層をオフロードできるはずです。

🎱 ヘプタゴンテスト

我々はまた動的量子化を通じてテストします: r/Localllamaarrow-up-right そこでモデルは、移動する閉じた七角形の中で回転するボールをシミュレートする基本的な物理エンジンを作成するテストを受けます。

目標は七角形を回転させ、七角形内のボールが動くようにすることです。
Cover

非動的2ビット。失敗 - 発作注意 再び!

Cover

動的2ビット。実際にヘプタゴンパズルを正しく解きます!!

サイズがわずか230GBの動的2.7ビット量子化は実際にヘプタゴンパズルを解くことに成功しました!3つのバージョンすべて(完全なfp8を含む)の完全な出力は以下の通りです:

chevron-right動的2ビット ヘプタゴンコードhashtag
chevron-right非動的2ビット ヘプタゴンコードhashtag
chevron-rightFloat8 ヘプタゴンコードhashtag

🕵️ 追加の発見とヒント

  1. 実験的テストでは、KVキャッシュの低ビット量化(4ビット)を使用すると生成品質が低下するように見えます — さらにテストが必要ですが、以下を使用することを推奨します。 q8_0 キャッシュ量子化の目的は、KVキャッシュがかなりのメモリを使用するため、より長いコンテキスト長をサポートすることです。

  2. 我々は down_proj このモデルでは量子化に極めて敏感であることを発見しました。2ビットを使用していた動的量子化の一部をやり直す必要があり、これらの行列に対しては現在最小で3ビットを使用しています。 down_proj and now we use 3bits as the minimum for all these matrices.

  3. 使用すると、 llama.cpp のFlash Attentionバックエンドはデコード速度をやや向上させる結果になります。コンパイル時にを使用してください。 また、 -DGGML_CUDA_FA_ALL_QUANTS=ON https://developer.nvidia.com/cuda-gpus で見つかるようにCUDAアーキテクチャを設定するのが最良です。これによりコンパイル時間を短縮し、その後以下で設定します。arrow-up-right -DCMAKE_CUDA_ARCHITECTURES="80" 使用する場合、

  4. min_p=0.01 おそらく十分です。のデフォルトは0.1で、これはおそらく不要です。温度0.3が使用されているため、低確率トークンをサンプリングする可能性は非常に低く、非常にありそうもないトークンを除外するのは良い考えです。DeepSeekはコーディング作業に対して温度0.0を推奨します。 llama.cppdefaults to 0.1, which is probably not necessary. Since a temperature of 0.3 is used anyways, we most likely will very unlikely sample low probability tokens, so removing very unlikely tokens is a good idea. DeepSeek recommends 0.0 temperature for coding tasks.

最終更新

役に立ちましたか?