Cogito v2.1: ローカル実行方法
Cogito v2.1 LLMは、IDAで学習された世界最強クラスのオープンモデルの一つです。またv1は70B、109B、405B、671Bの4サイズがあり、自分のハードウェアに最も合うサイズを選べます。
Deep Cogito v2.1 は、2025年11月19日時点で最も強力なオープンウェイトモデルである更新版 671B MoE です。
Cogito v2.1 は 1 種類の 671B MoE サイズで提供され、一方 Cogito v2 Preview は Deep Cogitoのモデル公開は、70B から 671B までの 4 つのモデルサイズに及びます。 IDA(Iterated Distillation & Amplification)を用いることで、これらのモデルは、推論時に単により長く探索するのではなく(DeepSeek R1 のように)、反復的な方策改善を用いて推論過程をモデル内部に内面化するよう訓練されています。
Deep Cogito は 米国サンフランシスコに拠点を置いています (Unsloth のように 🇺🇸)そして、4 つすべてのモデルサイズ向けに量子化された動的モデルを提供できることを嬉しく思います! すべてのアップロードは Unsloth Dynamic 2.0 を使用しており、SOTA の 5-shot MMLU と KL Divergence の性能を実現しています。つまり、最小限の精度低下で、これらの LLM を量子化したまま実行・ファインチューニングできます!
チュートリアルのナビゲーション:
671B MoE を実行109B MoE を実行405B Dense を実行70B Dense を実行
どのモデルサイズがあなたのハードウェアに合うか選びましょう! 4 つすべてのモデルサイズ向けに、1.58bit から 16bit までのバリエーションをアップロードしています!
💎 モデルサイズとアップロード
モデルサイズは 4 種類あります:
Llama ベースの Dense モデルが 2 種類 - 70B と 405B
Llama 4 Scout(109B)と DeepSeek R1(671B)をベースにした MoE モデルが 2 種類
必須ではありませんが、最高の性能を得るには、VRAM と RAM の合計がダウンロードする量子化サイズと同じになるようにしてください。VRAM + RAM がそれより少ない場合でも量子化は動作しますが、かなり遅くなります。
🐳 llama.cpp で Cogito 671B MoE を実行
最新の
llama.cppを GitHub こちらから取得してください。以下のビルド手順に従うこともできます。-DGGML_CUDA=ONを-DGGML_CUDA=OFFに変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスの場合、次を設定して-DGGML_CUDA=OFFその後は通常どおり続けてください - Metal サポートは既定で有効です。
もし
llama.cppモデルを直接読み込むには、以下のようにできます。(:IQ1_S) は量子化タイプです。Hugging Face からもダウンロードできます(ポイント 3)。これは次のものに似ていますollama runに似ています。使用export LLAMA_CACHE="folder"してllama.cpp特定の場所に保存するために。
ぜひお試しください -ot ".ffn_.*_exps.=CPU" すべての MoE レイヤーを CPU にオフロードします!これにより、非 MoE レイヤーを 1 枚の GPU に収められるようになり、生成速度が向上します。GPU 容量がさらにある場合は、正規表現を調整してより多くのレイヤーを収めることができます。
GPU メモリがもう少し多い場合は、試してみてください -ot ".ffn_(up|down)_exps.=CPU" これにより、アップ投影とダウン投影の MoE レイヤーがオフロードされます。
試してみてください -ot ".ffn_(up)_exps.=CPU" GPU メモリがさらに多い場合は、これを使ってください。これにより、アップ投影の MoE レイヤーのみがオフロードされます。
そして最後に、 -ot ".ffn_.*_exps.=CPU" を使ってすべてのレイヤーをオフロードします。
これは最も少ない VRAM を使用します。 正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"
モデルのダウンロード(
pip install huggingface_hub hf_transferのインストール後)。UD-IQ1_S(動的 1.78bit 量子化)または次のような他の量子化版Q4_K_M私たちは 当社の 2.7bit 動的量子化版の使用を推奨しますUD-Q2_K_XLサイズと精度のバランスを取るためです。その他のバージョンはこちら: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF
編集
--threads 32CPU スレッド数を--ctx-size 16384コンテキスト長を--n-gpu-layers 2GPU オフロードする層数を指定します。GPU のメモリ不足になる場合は調整してみてください。CPU のみで推論する場合は、これも削除してください。
🖱️llama.cpp で Cogito 109B MoE を実行
その後、以下を実行します:
🌳llama.cpp で Cogito 405B Dense を実行
その後、以下を実行します:
😎 llama.cpp で Cogito 70B Dense を実行
その後、以下を実行します:
最終更新
役に立ちましたか?

