Cogito v2.1: ローカル実行ガイド
Cogito v2.1 LLM は IDA で学習された世界最強クラスのオープンモデルのひとつです。v1 は 70B、109B、405B、671B の 4 サイズがあり、ハードウェアに最適なサイズを選べます。
Deep Cogito v2.1 は、2025年11月19日時点で最も強力なオープンウェイトモデルである更新版の671B MoEです。
Cogito v2.1 は 1 つの 671B MoE サイズで提供され、Cogito v2 Preview は Deep Cogitoのモデル公開は 70B から 671B までの 4 つのモデルサイズに及びます。これらは IDA(反復蒸留と増幅)を用いることで、推論時に単により長く探索する(DeepSeek R1 のように)のではなく、反復的な方策改善を用いてモデルが推論プロセスを内在化する形で訓練されています。
Deep Cogito の所在地は 米国サンフランシスコ (Unsloth のように 🇺🇸)で、4 つのモデルサイズすべてについて量子化された動的モデルを提供できることを嬉しく思います!すべてのアップロードは Unsloth を使用して Dynamic 2.0 SOTA の 5-shot MMLU と KL 発散性能を達成しており、これによりこれらの LLM を量子化したまま最小限の精度低下で実行および微調整できます!
チュートリアル ナビゲーション:
671B MoE を実行109B MoE を実行405B Dense を実行70B Dense を実行
どのモデルサイズがあなたのハードウェアに適しているかを選んでください!4 つのモデルサイズすべてに対して 1.58bit から 16bit のバリアントをアップロードしています!
💎 モデルサイズとアップロード
モデルサイズは 4 つあります:
Llama ベースの 2 つの Dense モデル - 70B と 405B
Llama 4 Scout(109B)および DeepSeek R1(671B)をベースとした 2 つの MoE モデル
必須ではありませんが、最良のパフォーマンスを得るには VRAM + RAM の合計がダウンロードする量子化モデルのサイズと等しくなるようにしてください。もし VRAM + RAM が少ない場合でも量子化モデルは動作しますが、かなり遅くなります。
🐳 llama.cpp で Cogito 671B MoE を実行する
最新の
llama.cppを GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください-DGGML_CUDA=ONに-DGGML_CUDA=OFFGPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください-DGGML_CUDA=OFFその後通常通り続行してください — Metalサポートはデフォルトで有効です。
もし直接
llama.cppモデルを直接ロードするには、下記を行えます:(:IQ1_S)は量子化タイプです。Hugging Face(ポイント 3)からもダウンロードできます。これは以下と類似していますollama runに類似しています。使用してくださいexport LLAMA_CACHE="folder"llama.cpp特定の場所に保存するために。
ぜひ試してみてください -ot ".ffn_.*_exps.=CPU" -ot ".ffn_.*_exps.=CPU"
もし少し多くのGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これは up と down の投影 MoE 層をオフロードします。
試してみてください -ot ".ffn_(up)_exps.=CPU" さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。
もしさらに多くのGPUメモリがある場合。これはup投影のMoEレイヤーのみをオフロードします。 -ot ".ffn_.*_exps.=CPU" そして最後にすべてのレイヤーを次でオフロードします
正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。
モデルをダウンロードするには(をインストールした後)
モデルをダウンロードするには(を選択できます。UD-IQ1_S(動的 1.78bit 量子化)や他の量子化バージョンのようなQ4_K_MQ4_K_XL などの他の量子化版です。私たちはサイズと精度のバランスを取るために私たちの2.7ビット動的量子化をUD-Q2_K_XLなどがあります。さらに多くのバージョンは: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF
編集
次の--threads 32はCPUスレッドの数、--ctx-size 16384はコンテキスト長、--n-gpu-layers 2
🖱️llama.cpp で Cogito 109B MoE を実行する
上記の 671B モデルを実行する際の手順に従ってください 上記の 671B モデル.
その後、以下を実行してください:
🌳llama.cpp で Cogito 405B Dense を実行する
上記の 671B モデルを実行する際の手順に従ってください 上記の 671B モデル.
その後、以下を実行してください:
😎 llama.cpp で Cogito 70B Dense を実行する
上記の 671B モデルを実行する際の手順に従ってください 上記の 671B モデル.
その後、以下を実行してください:
print(completion.choices[0].message.content) https://www.deepcogito.com/research/cogito-v2-1 詳細はこちら
最終更新
役に立ちましたか?

