hexagonCogito v2.1:本地运行指南

Cogito v2.1 LLM 是世界上最强大的开源模型之一,使用 IDA 训练。此外 v1 提供 4 种规模:70B、109B、405B 和 671B,可让您选择最适合您硬件的规模。

circle-check

Cogito v2.1 提供 1 个 671B MoE 大小,而 Cogito v2 预览版是 Deep Cogitoarrow-up-right's 发布的模型涵盖 4 个模型规模,范围从 70B 到 671B。通过使用 IDA(迭代蒸馏与放大),这些模型通过让模型在内部内化推理过程并使用迭代策略改进来训练,而不是仅在推理时更长时间地搜索(像 DeepSeek R1 那样)。

Deep Cogito 的总部位于 美国旧金山arrow-up-right (像 Unsloth 一样 🇺🇸)我们很高兴为所有 4 种模型规模提供量化的动态模型!所有上传都使用 Unsloth Dynamic 2.0 以实现 SOTA 的 5-shot MMLU 和 KL 散度性能,这意味着你可以在准确率损失最小的情况下运行并微调这些量化的大语言模型!

教程导航:

运行 671B MoE运行 109B MoE运行 405B Dense运行 70B Dense

circle-check

💎 模型规模与上传

共有 4 种模型规模:

  1. 基于 Llama 的 2 个 Dense 模型 - 70B 和 405B

  2. 基于 Llama 的 2 个 MoE 模型:Llama 4 Scout(109B)和 DeepSeek R1(671B)

模型规模
推荐量化与链接
磁盘大小
架构

70B Dense

44GB

Llama 3 70B

109B MoE

50GB

Llama 4 Scout

405B Dense

152GB

Llama 3 405B

671B MoE

251GB

DeepSeek R1

circle-check

🐳 在 llama.cpp 中运行 Cogito 671B MoE

  1. 获取最新的 llama.cppGitHub 这里arrow-up-right。您也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果您没有 GPU 或仅想要 CPU 推理。

  1. 如果您想直接使用 llama.cpp 直接加载模型时,你可以如下操作:(:IQ1_S) 是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这与 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 将模型保存到特定位置。

circle-check
  1. 通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。您可以选择 UD-IQ1_S(动态 1.78bit 量化)或其他量化版本如 Q4_K_M 。我们 建议使用我们的 2.7bit 动态量化 UD-Q2_K_XL 以在大小和精度之间取得平衡。更多版本见: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUFarrow-up-right

  1. 编辑 --threads 32 以设置 CPU 线程数量, --ctx-size 16384 以设置上下文长度, --n-gpu-layers 2 以设置要在多少层上进行 GPU 卸载。如果 GPU 内存不足,请尝试调整它。如果仅使用 CPU 推理,也可移除该项。

🖱️在 llama.cpp 中运行 Cogito 109B MoE

  1. 按照运行上述 671B 模型的相同说明.

  2. 然后运行下面的命令:

🌳在 llama.cpp 中运行 Cogito 405B Dense

  1. 按照运行上述 671B 模型的相同说明.

  2. 然后运行下面的命令:

😎 在 llama.cpp 中运行 Cogito 70B Dense

  1. 按照运行上述 671B 模型的相同说明.

  2. 然后运行下面的命令:

https://www.deepcogito.com/research/cogito-v2-1arrow-up-right 以获取更多详情

最后更新于

这有帮助吗?