Cogito v2.1:如何本地运行
Cogito v2.1 LLM 是世界上最强大的开源模型之一,采用 IDA 训练。v1 还提供 4 种尺寸:70B、109B、405B 和 671B,让你可以根据硬件选择最合适的尺寸。
Deep Cogito v2.1 是一个更新的 671B MoE,截至 2025 年 11 月 19 日是最强大的开源权重模型。
Cogito v2.1 提供 1 个 671B MoE 大小,而 Cogito v2 Preview 为 Deep Cogito的模型发布涵盖 4 个模型规模,从 70B 到 671B 不等。通过使用 IDA(迭代蒸馏与放大),这些模型通过让模型在迭代策略改进中内化推理过程来训练,而不是仅在推理时更长时间地搜索(像 DeepSeek R1 那样)。
Deep Cogito 的总部位于 美国旧金山 (像 Unsloth 🇺🇸)并且我们很高兴为所有 4 种模型规模提供量化的动态模型!所有上传都使用 Unsloth Dynamic 2.0 以实现 SOTA 的 5-shot MMLU 和 KL 散度性能,这意味着您可以以最小的精度损失运行并微调这些量化的 LLM!
教程导航:
运行 671B MoE运行 109B MoE运行 405B Dense运行 70B Dense
选择适合您硬件的模型规模!我们为所有 4 个模型规模上传了 1.58bit 到 16bit 的变体!
💎 模型规模与上传
共有 4 种模型规模:
基于 Llama 的 2 个 Dense 模型 - 70B 和 405B
基于 Llama 的 2 个 MoE 模型分别为 Llama 4 Scout(109B)和 DeepSeek R1(671B)
尽管不是必须的,但为了获得最佳性能,请确保您的显存(VRAM)+ 内存(RAM)合计等于您要下载的量化文件的大小。如果您的显存 + 内存较少,量化模型仍然可以运行,只是会慢得多。
🐳 在 llama.cpp 中运行 Cogito 671B MoE
获取最新的
llama.cpp在 此处的 GitHub。您也可以按照下面的构建说明进行。若-DGGML_CUDA=ON更改为-DGGML_CUDA=OFF如果您没有 GPU 或仅想要在 CPU 上进行推理。 对于 Apple Mac / Metal 设备,设置-DGGML_CUDA=OFF然后照常继续 - Metal 支持默认启用。
如果您想直接使用
llama.cpp直接加载模型,您可以如下操作:(:IQ1_S) 是量化类型。您也可以通过 Hugging Face 下载(第 3 点)。这类似于ollama run类似。使用export LLAMA_CACHE="folder"来强制llama.cpp将其保存到特定位置。
请试用 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许您将所有非 MoE 层放在一块 GPU 上,从而提高生成速度。如果您有更多 GPU 容量,可以自定义正则表达式以卸载更多层。
如果你有稍多的 GPU 内存,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会卸载上投影和下投影的 MoE 层。
尝试 -ot ".ffn_(up)_exps.=CPU" 如果你有更多的 GPU 内存。这只会卸载上投影的 MoE 层。
最后通过卸载所有层来做: -ot ".ffn_.*_exps.=CPU" 这使用最少的 VRAM。
你也可以自定义正则表达式,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层起卸载 gate、up 和 down 的 MoE 层。
通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer之后)。您可以选择UD-IQ1_S(动态 1.78bit 量化)或其他量化版本,例如Q4_K_M。我们 建议使用我们的 2.7bit 动态量化UD-Q2_K_XL以在大小和准确性之间取得平衡。更多版本在: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF
编辑
--threads 32用于设置 CPU 线程数,--ctx-size 16384用于上下文长度,--n-gpu-layers 2用于指定将多少层卸载到 GPU。若 GPU 出现内存不足,请尝试调整它。若仅使用 CPU 推理,请移除此项。
🖱️在 llama.cpp 中运行 Cogito 109B MoE
按照运行上述 671B 模型的相同说明.
然后运行以下命令:
🌳在 llama.cpp 中运行 Cogito 405B Dense
按照运行上述 671B 模型的相同说明.
然后运行以下命令:
😎 在 llama.cpp 中运行 Cogito 70B Dense
按照运行上述 671B 模型的相同说明.
然后运行以下命令:
GLM 4.7 的工具调用 https://www.deepcogito.com/research/cogito-v2-1 了解更多细节
最后更新于
这有帮助吗?

