🐳DeepSeek-V3-0324: ローカルで実行する方法
当社の動的クオンタイズを使って精度を回復し、DeepSeek-V3-0324 をローカルで実行する方法。
をご覧ください https://docs.unsloth.ai/basics/deepseek-r1-0528-how-to-run-locally (2025年5月28日更新)DeepSeekをより速く、より効率的に実行する方法を学びましょう!
DeepSeekがまた動き出しました!2024年12月と2025年1月にV3、R1 Zero、R1をリリースした後、DeepSeekはV3のチェックポイント/モデルを更新し、3月のアップデートを公開しました!
DeepSeekによると、MMLU-Proは+5.3%上昇して81.2%になりました。 GPQA +9.3ポイント。AIMEは+19.8%、LiveCodeBenchは+10.0%!彼らは以前のV3チェックポイントやGPT 4.5、Claude Sonnet 3.7などのモデルと比較したプロットを提供しました。 では、6710億パラメータのモデルをどうやってローカルで動かすのでしょうか?
DeepSeek V3の元のアップロードはfloat8で、715GBかかります。Q4_K_Mを使うとファイルサイズは約404GBに半減し、我々の動的1.78ビット量子化は約151GBに収まります。 サイズと精度のバランスを取るために、我々の2.7ビット量子化を使うことを推奨します!2.4ビットのものもよく機能します!
⚙️ 公式推奨設定
によると DeepSeek、これらが推論の推奨設定です:
Temperature(温度)0.3 (コーディングではおそらく0.0、 こちらで確認))
Min_Pを0.00(オプション、但し0.01がよく機能します。llama.cppのデフォルトは0.1)
チャットテンプレート:
<|User|>Pythonで簡単に遊べるFlappy Birdゲームを作成してください。完成したゲームはマークダウンのセクション内に配置してください。<|Assistant|>BOSトークンは
<|begin▁of▁sentence|>トークナイゼーション時に自動的に追加されます(手動で追加しないでください!)DeepSeekは システムプロンプト も使用すると述べています(オプション)—それは中国語です:
该助手为DeepSeek Chat,由深度求索公司创造。\n今天是3月24日,星期一。は次のように翻訳されます:このアシスタントはDeepSeek Chatで、DeepSeekによって作成されました。\n今日は3月24日、月曜日です。KVキャッシュの量子化には8ビットを使用してください。4ビットでは明らかに性能が悪いことが分かっています。
📖 チュートリアル:llama.cppでDeepSeek-V3を実行する方法
最新の
llama.cppを GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください-DGGML_CUDA=ONに-DGGML_CUDA=OFFGPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください-DGGML_CUDA=OFFその後通常通り続行してください — Metalサポートはデフォルトで有効です。
注: -DGGML_CUDA=ON をGPU向けに使用するとコンパイルに5分かかる場合があります。CPUのみでは1分でコンパイルできます。llama.cppの事前コンパイル済みバイナリに興味があるかもしれません。
モデルをダウンロードするには(をインストールした後)
モデルをダウンロードするには(を選択できます。UD-IQ1_S(動的 1.78bit 量子化)や他の量子化バージョンのようなQ4_K_M. 我々の2.7ビット動的量子化の使用を推奨しますサイズと精度のバランスを取るために私たちの2.7ビット動的量子化をUD-Q2_K_XLなどがあります。さらに多くのバージョンは: https://huggingface.co/unsloth/DeepSeek-V3-0324-GGUF
UnslothのFlappy Birdテストを、DeepSeek R1の1.58ビット動的量子化で説明したとおりに実行してください。
編集
次の--threads 32はCPUスレッドの数、--ctx-size 16384はコンテキスト長、--n-gpu-layers 2

DeepSeek-R1と同様に、V3は61層あります。たとえば24GB GPUや80GB GPUでは、四捨五入してオフロードすると(メモリ不足になる場合は1層減らす)、次のようになります:
1.73bit
173GB
5
25
56
2.22bit
183GB
4
22
49
2.51bit
212GB
2
19
32
Mac / Apple デバイスでの実行
Apple Metalデバイスでは、次に注意してください: --n-gpu-layers。マシンがメモリ不足になる場合はこれを減らしてください。128GBの統一メモリマシンでは、およそ59層をオフロードできるはずです。
🎱 ヘプタゴンテスト
我々はまた動的量子化を通じてテストします: r/Localllama そこでモデルは、移動する閉じた七角形の中で回転するボールをシミュレートする基本的な物理エンジンを作成するテストを受けます。


非動的2ビット。失敗 - 発作注意 再び!

動的2ビット。実際にヘプタゴンパズルを正しく解きます!!

元のfloat8
サイズがわずか230GBの動的2.7ビット量子化は実際にヘプタゴンパズルを解くことに成功しました!3つのバージョンすべて(完全なfp8を含む)の完全な出力は以下の通りです:
🕵️ 追加の発見とヒント
実験的テストでは、KVキャッシュの低ビット量化(4ビット)を使用すると生成品質が低下するように見えます — さらにテストが必要ですが、以下を使用することを推奨します。
q8_0キャッシュ量子化の目的は、KVキャッシュがかなりのメモリを使用するため、より長いコンテキスト長をサポートすることです。我々は
down_projこのモデルでは量子化に極めて敏感であることを発見しました。2ビットを使用していた動的量子化の一部をやり直す必要があり、これらの行列に対しては現在最小で3ビットを使用しています。down_projand now we use 3bits as the minimum for all these matrices.使用すると、
llama.cppのFlash Attentionバックエンドはデコード速度をやや向上させる結果になります。コンパイル時にを使用してください。 また、-DGGML_CUDA_FA_ALL_QUANTS=ONhttps://developer.nvidia.com/cuda-gpus で見つかるようにCUDAアーキテクチャを設定するのが最良です。これによりコンパイル時間を短縮し、その後以下で設定します。 -DCMAKE_CUDA_ARCHITECTURES="80"使用する場合、min_p=0.01
おそらく十分です。のデフォルトは0.1で、これはおそらく不要です。温度0.3が使用されているため、低確率トークンをサンプリングする可能性は非常に低く、非常にありそうもないトークンを除外するのは良い考えです。DeepSeekはコーディング作業に対して温度0.0を推奨します。llama.cppdefaults to 0.1, which is probably not necessary. Since a temperature of 0.3 is used anyways, we most likely will very unlikely sample low probability tokens, so removing very unlikely tokens is a good idea. DeepSeek recommends 0.0 temperature for coding tasks.
最終更新
役に立ちましたか?


