Cogito v2.1:本地运行指南
Cogito v2.1 LLM 是世界上最强大的开源模型之一,使用 IDA 训练。此外 v1 提供 4 种规模:70B、109B、405B 和 671B,可让您选择最适合您硬件的规模。
Deep Cogito v2.1 是一个更新的 671B MoE,截至 2025 年 11 月 19 日是最强大的开源权重模型。
Cogito v2.1 提供 1 个 671B MoE 大小,而 Cogito v2 预览版是 Deep Cogito's 发布的模型涵盖 4 个模型规模,范围从 70B 到 671B。通过使用 IDA(迭代蒸馏与放大),这些模型通过让模型在内部内化推理过程并使用迭代策略改进来训练,而不是仅在推理时更长时间地搜索(像 DeepSeek R1 那样)。
Deep Cogito 的总部位于 美国旧金山 (像 Unsloth 一样 🇺🇸)我们很高兴为所有 4 种模型规模提供量化的动态模型!所有上传都使用 Unsloth Dynamic 2.0 以实现 SOTA 的 5-shot MMLU 和 KL 散度性能,这意味着你可以在准确率损失最小的情况下运行并微调这些量化的大语言模型!
教程导航:
运行 671B MoE运行 109B MoE运行 405B Dense运行 70B Dense
选择适合你硬件的模型规模!我们为所有 4 种模型规模上传了 1.58bit 到 16bit 的变体!
💎 模型规模与上传
共有 4 种模型规模:
基于 Llama 的 2 个 Dense 模型 - 70B 和 405B
基于 Llama 的 2 个 MoE 模型:Llama 4 Scout(109B)和 DeepSeek R1(671B)
虽非必需,但为获得最佳性能,请使你的显存(VRAM)+ 内存(RAM)合计等于你要下载的量化模型的大小。如果你的显存 + 内存不足,量化模型仍然可以运行,只是会慢得多。
🐳 在 llama.cpp 中运行 Cogito 671B MoE
获取最新的
llama.cpp在 GitHub 这里。您也可以按照下面的构建说明操作。将-DGGML_CUDA=ON更改为-DGGML_CUDA=OFF如果您没有 GPU 或仅想要 CPU 推理。
如果您想直接使用
llama.cpp直接加载模型时,你可以如下操作:(:IQ1_S) 是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这与ollama run。使用export LLAMA_CACHE="folder"来强制llama.cpp将模型保存到特定位置。
请尝试 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许您将所有非 MoE 层放在 1 个 GPU 上,从而提高生成速度。如果您有更多 GPU 容量,可以定制正则表达式以适配更多层。
如果您有更多一些的 GPU 内存,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会将上投和下投的 MoE 层卸载。
尝试 -ot ".ffn_(up)_exps.=CPU" 如果您还有更多 GPU 内存。此选项仅卸载上投 MoE 层。
最后,通过卸载所有层使用 -ot ".ffn_.*_exps.=CPU" 这使用最少的 VRAM。
您也可以自定义正则表达式,例如 -ot "\\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层开始卸载 gate、up 和 down 的 MoE 层。
通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer之后)。您可以选择UD-IQ1_S(动态 1.78bit 量化)或其他量化版本如Q4_K_M。我们 建议使用我们的 2.7bit 动态量化UD-Q2_K_XL以在大小和精度之间取得平衡。更多版本见: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF
编辑
--threads 32以设置 CPU 线程数量,--ctx-size 16384以设置上下文长度,--n-gpu-layers 2以设置要在多少层上进行 GPU 卸载。如果 GPU 内存不足,请尝试调整它。如果仅使用 CPU 推理,也可移除该项。
🖱️在 llama.cpp 中运行 Cogito 109B MoE
按照运行上述 671B 模型的相同说明.
然后运行下面的命令:
🌳在 llama.cpp 中运行 Cogito 405B Dense
按照运行上述 671B 模型的相同说明.
然后运行下面的命令:
😎 在 llama.cpp 中运行 Cogito 70B Dense
按照运行上述 671B 模型的相同说明.
然后运行下面的命令:
最后更新于
这有帮助吗?

