hexagonCogito v2.1: Wie man lokal ausführt

Cogito v2.1 LLMs gehören zu den stärksten offenen Modellen der Welt, trainiert mit IDA. Außerdem gibt es v1 in 4 Größen: 70B, 109B, 405B und 671B, sodass du die Größe auswählen kannst, die am besten zu deiner Hardware passt.

circle-check

Cogito v2.1 ist in einer 671B MoE-Größe verfügbar, während Cogito v2 Preview Deep Cogitoarrow-up-rightVeröffentlichung von Modellen umfasst 4 Modellgrößen von 70B bis 671B. Durch die Verwendung von IDA (Iterated Distillation & Amplification)werden diese Modelle so trainiert, dass das Modell den Denkprozess internalisiert und durch iterative Policy-Verbesserung lernt, anstatt bei der Inferenzzeit lediglich länger zu suchen (wie DeepSeek R1).

Deep Cogito hat seinen Sitz in San Francisco, USAarrow-up-right (wie Unsloth 🇺🇸) und wir freuen uns, quantisierte dynamische Modelle für alle 4 Modellgrößen anzubieten! Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Leistung, das heißt, Sie können diese quantisierten LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen!

Tutorial-Navigation:

671B MoE ausführen109B MoE ausführen405B Dense ausführen70B Dense ausführen

circle-check

💎 Modellgrößen und Uploads

Es gibt 4 Modellgrößen:

  1. 2 Dense-Modelle basierend auf Llama - 70B und 405B

  2. 2 MoE-Modelle basierend auf Llama 4 Scout (109B) und DeepSeek R1 (671B)

Modellgrößen
Empfohlene Quant & Link
Platzbedarf auf Datenträger
Architektur
circle-check

🐳 Cogito 671B MoE in llama.cpp ausführen

  1. Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Wenn du llama.cpp um Modelle direkt zu laden, können Sie Folgendes tun: (:IQ1_S) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="folder" um llama.cpp um an einen bestimmten Ort zu speichern.

circle-check
  1. Lade das Modell herunter via (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst wählen UD-IQ1_S(dynamischer 1,78bit-Quant) oder andere quantisierte Versionen wie Q4_K_M Q4_K_XL . Wir empfehlen die Verwendung unseres 2,7-Bit Dynamic Quant UD-Q2_K_XL. Mehr Versionen unter: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUFarrow-up-right

  1. Bearbeiten Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für Kontextlänge, --n-gpu-layers 2

🖱️Cogito 109B MoE in llama.cpp ausführen

  1. Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.

  2. Führen Sie dann Folgendes aus:

🌳Cogito 405B Dense in llama.cpp ausführen

  1. Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.

  2. Führen Sie dann Folgendes aus:

😎 Cogito 70B Dense in llama.cpp ausführen

  1. Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.

  2. Führen Sie dann Folgendes aus:

Tool Calling mit GLM 4.7 https://www.deepcogito.com/research/cogito-v2-1arrow-up-right für weitere Details

Zuletzt aktualisiert

War das hilfreich?