Cogito v2.1: Wie man lokal ausführt

Cogito-v2.1-LLMs gehören zu den stärksten offenen Modellen der Welt, die mit IDA trainiert wurden. Außerdem gibt es v1 in 4 Größen: 70B, 109B, 405B und 671B, sodass du die Größe auswählen kannst, die am besten zu deiner Hardware passt.

Cogito v2.1 gibt es in einer 671B-MoE-Größe, während Cogito v2 Preview Deep Cogitos Veröffentlichung von Modellen umfasst 4 Modellgrößen von 70B bis 671B. Durch die Verwendung von IDA (Iterated Distillation & Amplification) werden diese Modelle so trainiert, dass das Modell den Denkprozess durch iterative Policy-Verbesserung verinnerlicht, anstatt bei der Inferenzzeit einfach länger zu suchen (wie DeepSeek R1).

Deep Cogito hat seinen Sitz in San Fransisco, USA (wie Unsloth 🇺🇸) und wir freuen uns, für alle 4 Modellgrößen quantisierte dynamische Modelle bereitzustellen! Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot-MMLU- und KL-Divergenz-Performance, was bedeutet, dass du diese LLMs mit minimalem Genauigkeitsverlust quantisiert ausführen und feinabstimmen kannst!

Tutorial-Navigation:

671B MoE ausführen109B MoE ausführen405B Dense ausführen70B Dense ausführen

💎 Modellgrößen und Uploads

Es gibt 4 Modellgrößen:

  1. 2 Dense-Modelle auf Basis von Llama - 70B und 405B

  2. 2 MoE-Modelle auf Basis von Llama 4 Scout (109B) und DeepSeek R1 (671B)

Modellgrößen
Empfohlene Quantisierung & Link
Festplattengröße
Architektur

70B Dense

44GB

Llama 3 70B

109B MoE

50GB

Llama 4 Scout

405B Dense

152GB

Llama 3 405B

671B MoE

251GB

DeepSeek R1

🐳 Cogito 671B MoE in llama.cpp ausführen

  1. Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Wenn du llama.cpp um Modelle direkt zu laden, kannst du Folgendes verwenden: (:IQ1_S) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, dass llama.cpp um an einem bestimmten Speicherort zu speichern.

  1. Lade das Modell herunter über (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-IQ1_S(dynamische 1,78-Bit-Quantisierung) oder andere quantisierte Versionen wie Q4_K_M . Wir empfehlen unser dynamisches 2,7-Bit-Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Weitere Versionen unter: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF

  1. Bearbeiten --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, also für wie viele Layer. Versuchen Sie, dies anzupassen, wenn Ihrem GPU-Speicher der Platz ausgeht. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

🖱️Cogito 109B MoE in llama.cpp ausführen

  1. Befolge dieselben Anweisungen wie beim Ausführen des 671B-Modells oben.

  2. Dann führe Folgendes aus:

🌳Cogito 405B Dense in llama.cpp ausführen

  1. Befolge dieselben Anweisungen wie beim Ausführen des 671B-Modells oben.

  2. Dann führe Folgendes aus:

😎 Cogito 70B Dense in llama.cpp ausführen

  1. Befolge dieselben Anweisungen wie beim Ausführen des 671B-Modells oben.

  2. Dann führe Folgendes aus:

Siehe https://www.deepcogito.com/research/cogito-v2-1 für weitere Details

Zuletzt aktualisiert

War das hilfreich?