Cogito v2.1:ローカル実行ガイド
Cogito v2.1 LLM は IDA で訓練された世界で最も強力なオープンモデルの一つです。v1 は 70B、109B、405B、671B の 4 サイズがあり、ハードウェアに合ったサイズを選べます。
Deep Cogito v2.1は、2025年11月19日時点で最も強力なオープンウェイトモデルである、更新された671B MoEです。
Cogito v2.1は1つの671B MoEサイズで提供され、Cogito v2 Previewは Deep Cogito のモデルリリースは70Bから671Bまでの4つのモデルサイズに及びます。を使用することにより IDA(反復蒸留と増幅)、これらのモデルは推論時に単により長く探索するのではなく(DeepSeek R1のように)、反復的な方針改善を用いて推論過程をモデル内に取り込む形で訓練されます。
Deep Cogitoは拠点を置いています: 米国サンフランシスコ (Unslothのように 🇺🇸)そして4つのモデルサイズすべてに対して量子化されたダイナミックモデルを提供できることを嬉しく思います!すべてのアップロードはUnslothを使用しており Dynamic 2.0 SOTAの5ショットMMLUおよびKLダイバージェンスの性能を実現しているため、これらのLLMを量子化したまま最小限の精度低下で実行およびファインチューニングできます!
チュートリアル ナビゲーション:
671B MoEを実行する109B MoEを実行する405B Denseを実行する70B Denseを実行する
ハードウェアに合ったモデルサイズを選んでください!4つのモデルサイズすべてに対して1.58bitから16bitまでのバリアントをアップロードしています!
💎 モデルサイズとアップロード
モデルサイズは4つあります:
Llamaをベースにした2つのDenseモデル - 70B と 405B
Llama 4 Scout(109B)とDeepSeek R1(671B)をベースにした2つのMoEモデル
必須ではありませんが、最高のパフォーマンスを得るには、VRAMとRAMの合計がダウンロードする量子化ファイルのサイズと等しくなるようにしてください。VRAM+RAMがそれより少ない場合でも量子化は動作しますが、はるかに遅くなります。
🐳 llama.cppでCogito 671B MoEを実行する
最新の
llama.cppを GitHub で入手できます。下のビルド手順に従うこともできます。変更してください-DGGML_CUDA=ONから-DGGML_CUDA=OFFGPU がない場合や CPU 推論のみを行いたい場合は。
直接モデルを読み込むために
llama.cppモデルを直接ロードするには、以下を実行できます:(:IQ1_S)は量子化タイプです。Hugging Face(項目3)経由でもダウンロードできます。これは次と類似していますollama runに類似しています。使用してくださいexport LLAMA_CACHE="folder"で強制的にllama.cpp特定の場所に保存するために。
ぜひ試してみてください -ot ".ffn_.*_exps.=CPU" ですべてのMoE層をCPUにオフロードします!これにより、非MoE層を1つのGPUに収められるようになり、生成速度が向上します。GPU容量が大きい場合は正規表現をカスタマイズしてより多くの層を適合させることができます。
もしもう少しGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これはupおよびdownの投影MoE層をオフロードします。
試してみてください -ot ".ffn_(up)_exps.=CPU" もしさらに多くのGPUメモリがある場合。これはup投影MoE層のみをオフロードします。
そして最後にすべての層を次でオフロードします -ot ".ffn_.*_exps.=CPU" これは最小のVRAMを使用します。
正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は6層目以降のgate、up、downのMoE層をオフロードすることを意味します。
(以下をインストールした後に)モデルをダウンロードします
pip install huggingface_hub hf_transfer)。量子化バージョンとして選べますUD-IQ1_S(ダイナミック1.78bit量子化)や他の量子化バージョンのようなQ4_K_M)を選択できます。私たちは 2.7ビット動的量子化の使用を推奨しますUD-Q2_K_XLはサイズと精度のバランスをとるためです。その他のバージョンは: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF
編集
--threads 32でCPUスレッド数を編集できます、--ctx-size 16384でコンテキスト長を、--n-gpu-layers 2で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。
🖱️llama.cppでCogito 109B MoEを実行する
上記の671Bモデルを実行する手順と同じ指示に従ってください 上の671Bモデル.
それから以下を実行します:
🌳llama.cppでCogito 405B Denseを実行する
上記の671Bモデルを実行する手順と同じ指示に従ってください 上の671Bモデル.
それから以下を実行します:
😎 llama.cppでCogito 70B Denseを実行する
上記の671Bモデルを実行する手順と同じ指示に従ってください 上の671Bモデル.
それから以下を実行します:
詳細については https://www.deepcogito.com/research/cogito-v2-1 詳細については
最終更新
役に立ちましたか?

