hexagonCogito v2.1:如何本地运行

Cogito v2.1 LLM 是世界上最强大的开源模型之一,采用 IDA 训练。v1 还提供 4 种尺寸:70B、109B、405B 和 671B,让你可以根据硬件选择最合适的尺寸。

circle-check

Cogito v2.1 提供 1 个 671B MoE 大小,而 Cogito v2 Preview 为 Deep Cogitoarrow-up-right的模型发布涵盖 4 个模型规模,从 70B 到 671B 不等。通过使用 IDA(迭代蒸馏与放大),这些模型通过让模型在迭代策略改进中内化推理过程来训练,而不是仅在推理时更长时间地搜索(像 DeepSeek R1 那样)。

Deep Cogito 的总部位于 美国旧金山arrow-up-right (像 Unsloth 🇺🇸)并且我们很高兴为所有 4 种模型规模提供量化的动态模型!所有上传都使用 Unsloth Dynamic 2.0 以实现 SOTA 的 5-shot MMLU 和 KL 散度性能,这意味着您可以以最小的精度损失运行并微调这些量化的 LLM!

教程导航:

运行 671B MoE运行 109B MoE运行 405B Dense运行 70B Dense

circle-check

💎 模型规模与上传

共有 4 种模型规模:

  1. 基于 Llama 的 2 个 Dense 模型 - 70B 和 405B

  2. 基于 Llama 的 2 个 MoE 模型分别为 Llama 4 Scout(109B)和 DeepSeek R1(671B)

模型规模
推荐量化与链接
磁盘大小
架构

70B Dense

44GB

Llama 3 70B

109B MoE

50GB

Llama 4 Scout

405B Dense

152GB

Llama 3 405B

671B MoE

251GB

DeepSeek R1

circle-check

🐳 在 llama.cpp 中运行 Cogito 671B MoE

  1. 获取最新的 llama.cpp此处的 GitHubarrow-up-right。您也可以按照下面的构建说明进行。若 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果您没有 GPU 或仅想要在 CPU 上进行推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认启用。

  1. 如果您想直接使用 llama.cpp 直接加载模型,您可以如下操作:(:IQ1_S) 是量化类型。您也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 类似。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 将其保存到特定位置。

circle-check
  1. 通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。您可以选择 UD-IQ1_S(动态 1.78bit 量化)或其他量化版本,例如 Q4_K_M 。我们 建议使用我们的 2.7bit 动态量化 UD-Q2_K_XL 以在大小和准确性之间取得平衡。更多版本在: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUFarrow-up-right

  1. 编辑 --threads 32 用于设置 CPU 线程数, --ctx-size 16384 用于上下文长度, --n-gpu-layers 2 用于指定将多少层卸载到 GPU。若 GPU 出现内存不足,请尝试调整它。若仅使用 CPU 推理,请移除此项。

🖱️在 llama.cpp 中运行 Cogito 109B MoE

  1. 按照运行上述 671B 模型的相同说明.

  2. 然后运行以下命令:

🌳在 llama.cpp 中运行 Cogito 405B Dense

  1. 按照运行上述 671B 模型的相同说明.

  2. 然后运行以下命令:

😎 在 llama.cpp 中运行 Cogito 70B Dense

  1. 按照运行上述 671B 模型的相同说明.

  2. 然后运行以下命令:

GLM 4.7 的工具调用 https://www.deepcogito.com/research/cogito-v2-1arrow-up-right 了解更多细节

最后更新于

这有帮助吗?