# Cogito v2.1: ローカルで実行する方法

{% hint style="success" %}
Deep Cogito v2.1 は、2025年11月19日時点で最も強力なオープンウェイトモデルである更新版の671B MoEです。
{% endhint %}

Cogito v2.1 は 1 つの 671B MoE サイズで提供され、Cogito v2 Preview は [Deep Cogito](https://www.deepcogito.com/)のモデル公開は 70B から 671B までの 4 つのモデルサイズに及びます。これらは **IDA（反復蒸留と増幅）**&#x3092;用いることで、推論時に単により長く探索する（DeepSeek R1 のように）のではなく、反復的な方策改善を用いてモデルが推論プロセスを内在化する形で訓練されています。

Deep Cogito の所在地は [米国サンフランシスコ](https://techcrunch.com/2025/04/08/deep-cogito-emerges-from-stealth-with-hybrid-ai-reasoning-models/) （Unsloth のように :flag\_us:）で、4 つのモデルサイズすべてについて量子化された動的モデルを提供できることを嬉しく思います！すべてのアップロードは Unsloth を使用して [Dynamic 2.0](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md) SOTA の 5-shot MMLU と KL 発散性能を達成しており、これによりこれらの LLM を量子化したまま最小限の精度低下で実行および微調整できます！

**チュートリアル ナビゲーション：**

<a href="https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms/cogito-v2-how-to-run-locally#run-cogito-671b-moe-in-llama.cpp" class="button secondary">671B MoE を実行</a><a href="https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms/cogito-v2-how-to-run-locally#run-cogito-109b-moe-in-llama.cpp" class="button secondary">109B MoE を実行</a><a href="https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms/cogito-v2-how-to-run-locally#run-cogito-405b-dense-in-llama.cpp" class="button secondary">405B Dense を実行</a><a href="https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms/cogito-v2-how-to-run-locally#run-cogito-70b-dense-in-llama.cpp" class="button secondary">70B Dense を実行</a>

{% hint style="success" %}
どのモデルサイズがあなたのハードウェアに適しているかを選んでください！4 つのモデルサイズすべてに対して 1.58bit から 16bit のバリアントをアップロードしています！
{% endhint %}

## :gem: モデルサイズとアップロード

モデルサイズは 4 つあります：

1. Llama ベースの 2 つの Dense モデル - 70B と 405B
2. Llama 4 Scout（109B）および DeepSeek R1（671B）をベースとした 2 つの MoE モデル

<table data-full-width="false"><thead><tr><th>モデルサイズ</th><th width="256.9999694824219">推奨量子化＆リンク</th><th>ディスクサイズ</th><th>アーキテクチャ</th></tr></thead><tbody><tr><td>70B Dense</td><td><a href="https://huggingface.co/unsloth/cogito-v2-preview-llama-70B-GGUF">UD-Q4_K_XL</a></td><td><strong>44GB</strong></td><td>Llama 3 70B</td></tr><tr><td>109B MoE</td><td><a href="https://huggingface.co/unsloth/cogito-v2-preview-llama-109B-MoE-GGUF">UD-Q3_K_XL</a></td><td><strong>50GB</strong></td><td>Llama 4 Scout</td></tr><tr><td>405B Dense</td><td><a href="https://huggingface.co/unsloth/cogito-v2-preview-llama-405B-GGUF">サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を</a></td><td><strong>152GB</strong></td><td>Llama 3 405B</td></tr><tr><td>671B MoE</td><td><a href="https://huggingface.co/unsloth/cogito-v2-preview-deepseek-671B-MoE-GGUF">サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を</a></td><td><strong>251GB</strong></td><td>DeepSeek R1</td></tr></tbody></table>

{% hint style="success" %}
必須ではありませんが、最良のパフォーマンスを得るには VRAM + RAM の合計がダウンロードする量子化モデルのサイズと等しくなるようにしてください。もし VRAM + RAM が少ない場合でも量子化モデルは動作しますが、かなり遅くなります。
{% endhint %}

## 🐳 llama.cpp で Cogito 671B MoE を実行する

1. 最新の `llama.cpp` を [GitHubで入手してください](https://github.com/ggml-org/llama.cpp)。以下のビルド手順にも従うことができます。を変更してください `-DGGML_CUDA=ON` に `-DGGML_CUDA=OFF` GPUを持っていない場合やCPUで推論したい場合は **Apple Mac / Metalデバイスの場合**、次を設定してください `-DGGML_CUDA=OFF` その後通常通り続行してください — Metalサポートはデフォルトで有効です。

{% code overflow="wrap" %}

```shellscript
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}

2. もし直接 `llama.cpp` モデルを直接ロードするには、下記を行えます：（:IQ1\_S）は量子化タイプです。Hugging Face（ポイント 3）からもダウンロードできます。これは以下と類似しています `ollama run` に類似しています。 `使用してください` export LLAMA\_CACHE="folder" `llama.cpp` 特定の場所に保存するために。

{% hint style="success" %}
ぜひ試してみてください `-ot ".ffn_.*_exps.=CPU"` -ot ".ffn\_.\*\_exps.=CPU"

もし少し多くのGPUメモリがあるなら、次を試してください `-ot ".ffn_(up|down)_exps.=CPU"` これは up と down の投影 MoE 層をオフロードします。

試してみてください `-ot ".ffn_(up)_exps.=CPU"` さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。

もしさらに多くのGPUメモリがある場合。これはup投影のMoEレイヤーのみをオフロードします。 `-ot ".ffn_.*_exps.=CPU"` そして最後にすべてのレイヤーを次でオフロードします

正規表現をカスタマイズすることもできます。例えば `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。
{% endhint %}

```shellscript
export LLAMA_CACHE="unsloth/cogito-671b-v2.1-GGUF"
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/cogito-671b-v2.1-GGUF:UD-Q2_K_XL \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --top_p 0.95 \
    --min_p 0.01 \
    --jinja \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    -hf unsloth/GLM-4.7-GGUF:UD-Q2_K_XL \
    -ot ".ffn_.*_exps.=CPU"
```

3. モデルをダウンロードするには（をインストールした後） `モデルをダウンロードするには（` を選択できます。 `UD-IQ1_S`（動的 1.78bit 量子化）や他の量子化バージョンのような `Q4_K_M` Q4\_K\_XL <mark style="background-color:green;">**などの他の量子化版です。私たちは**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**`サイズと精度のバランスを取るために私たちの2.7ビット動的量子化を`**</mark><mark style="background-color:green;">**&#x20;**</mark><mark style="background-color:green;">**UD-Q2\_K\_XL**</mark>などがあります。さらに多くのバージョンは： <https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF>

{% code overflow="wrap" %}

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 時折レート制限されることがあるため、無効にするには 0 に設定します
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/cogito-671b-v2.1-GGUF",
    local_dir = "unsloth/cogito-671b-v2.1-GGUF",
    allow_patterns = ["*UD-IQ1_S*"], # 動的 1bit（168GB） 動的 2bit（251GB）には "*UD-Q2_K_XL*" を使用してください
)
```

{% endcode %}

4. 編集 `次の` --threads 32 `はCPUスレッドの数、` --ctx-size 16384 `はコンテキスト長、` --n-gpu-layers 2

## :mouse\_three\_button:llama.cpp で Cogito 109B MoE を実行する

1. 上記の 671B モデルを実行する際の手順に従ってください [上記の 671B モデル](#run-cogito-671b-moe-in-llama.cpp).
2. その後、以下を実行してください：

```shellscript
export LLAMA_CACHE="unsloth/cogito-v2-preview-llama-109B-MoE-GGUF"
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/cogito-v2-preview-llama-109B-MoE-GGUF:Q3_K_XL \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min-p 0.01 \
    --top-p 0.9 \
    --jinja \
    -hf unsloth/GLM-4.7-GGUF:UD-Q2_K_XL \
    -ot ".ffn_.*_exps.=CPU"
```

## :deciduous\_tree:llama.cpp で Cogito 405B Dense を実行する

1. 上記の 671B モデルを実行する際の手順に従ってください [上記の 671B モデル](#run-cogito-671b-moe-in-llama.cpp).
2. その後、以下を実行してください：

```shellscript
export LLAMA_CACHE="unsloth/cogito-v2-preview-llama-405B-GGUF"
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/cogito-v2-preview-llama-405B-GGUF:Q2_K_XL \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min-p 0.01 \
    --top-p 0.9 \
    -hf unsloth/GLM-4.7-GGUF:UD-Q2_K_XL \
    はCPUスレッドの数、
```

## :sunglasses: llama.cpp で Cogito 70B Dense を実行する

1. 上記の 671B モデルを実行する際の手順に従ってください [上記の 671B モデル](#run-cogito-671b-moe-in-llama.cpp).
2. その後、以下を実行してください：

```shellscript
export LLAMA_CACHE="unsloth/cogito-v2-preview-llama-70B-GGUF"
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/cogito-v2-preview-llama-70B-GGUF:Q4_K_XL \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min-p 0.01 \
    --top-p 0.9 \
    -hf unsloth/GLM-4.7-GGUF:UD-Q2_K_XL \
    はCPUスレッドの数、
```

print(completion.choices\[0].message.content) <https://www.deepcogito.com/research/cogito-v2-1> 詳細はこちら


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/tutorials/cogito-v2-how-to-run-locally.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
