Cogito v2.1: Wie man lokal ausführt
Cogito-v2.1-LLMs gehören zu den stärksten offenen Modellen der Welt, die mit IDA trainiert wurden. Außerdem gibt es v1 in 4 Größen: 70B, 109B, 405B und 671B, sodass du die Größe auswählen kannst, die am besten zu deiner Hardware passt.
Deep Cogito v2.1 ist ein aktualisiertes 671B MoE und das leistungsstärkste Open-Weights-Modell mit Stand vom 19. November 2025.
Cogito v2.1 gibt es in einer 671B-MoE-Größe, während Cogito v2 Preview Deep Cogitos Veröffentlichung von Modellen umfasst 4 Modellgrößen von 70B bis 671B. Durch die Verwendung von IDA (Iterated Distillation & Amplification) werden diese Modelle so trainiert, dass das Modell den Denkprozess durch iterative Policy-Verbesserung verinnerlicht, anstatt bei der Inferenzzeit einfach länger zu suchen (wie DeepSeek R1).
Deep Cogito hat seinen Sitz in San Fransisco, USA (wie Unsloth 🇺🇸) und wir freuen uns, für alle 4 Modellgrößen quantisierte dynamische Modelle bereitzustellen! Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot-MMLU- und KL-Divergenz-Performance, was bedeutet, dass du diese LLMs mit minimalem Genauigkeitsverlust quantisiert ausführen und feinabstimmen kannst!
Tutorial-Navigation:
671B MoE ausführen109B MoE ausführen405B Dense ausführen70B Dense ausführen
Wähle aus, welche Modellgröße zu deiner Hardware passt! Wir laden für alle 4 Modellgrößen Varianten von 1,58 Bit bis 16 Bit hoch!
💎 Modellgrößen und Uploads
Es gibt 4 Modellgrößen:
2 Dense-Modelle auf Basis von Llama - 70B und 405B
2 MoE-Modelle auf Basis von Llama 4 Scout (109B) und DeepSeek R1 (671B)
Obwohl nicht notwendig, gilt für die beste Leistung: VRAM + RAM zusammen sollten der Größe der heruntergeladenen Quantisierung entsprechen. Wenn du weniger VRAM + RAM hast, funktioniert die Quantisierung trotzdem, aber deutlich langsamer.
🐳 Cogito 671B MoE in llama.cpp ausführen
Hole dir die neueste
llama.cppauf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze-DGGML_CUDA=OFFund fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Wenn du
llama.cppum Modelle direkt zu laden, kannst du Folgendes verwenden: (:IQ1_S) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wieollama run. Verwenden Sieexport LLAMA_CACHE="folder"um zu erzwingen, dassllama.cppum an einem bestimmten Speicherort zu speichern.
Bitte probiere -ot ".ffn_.*_exps.=CPU" verwenden, um alle MoE-Layer auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Layer auf 1 GPU unterbringen, was die Generierungsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Layer unterzubringen, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert die MoE-Layer für Up- und Down-Projektionen aus.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur die MoE-Layer für Up-Projektionen aus.
Und schließlich lagern Sie alle Layer aus via -ot ".ffn_.*_exps.=CPU" Dies verwendet am wenigsten VRAM.
Sie können den Regex auch anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Layer auszulagern, aber nur ab der 6. Schicht.
Lade das Modell herunter über (nach der Installation von
pip install huggingface_hub hf_transfer). Du kannstUD-IQ1_S(dynamische 1,78-Bit-Quantisierung) oder andere quantisierte Versionen wieQ4_K_M. Wir empfehlen unser dynamisches 2,7-Bit-QuantUD-Q2_K_XLzu verwenden, um Größe und Genauigkeit auszubalancieren. Weitere Versionen unter: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF
Bearbeiten
--threads 32für die Anzahl der CPU-Threads bearbeiten,--ctx-size 16384für die Kontextlänge,--n-gpu-layers 2für GPU-Offloading, also für wie viele Layer. Versuchen Sie, dies anzupassen, wenn Ihrem GPU-Speicher der Platz ausgeht. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
🖱️Cogito 109B MoE in llama.cpp ausführen
Befolge dieselben Anweisungen wie beim Ausführen des 671B-Modells oben.
Dann führe Folgendes aus:
🌳Cogito 405B Dense in llama.cpp ausführen
Befolge dieselben Anweisungen wie beim Ausführen des 671B-Modells oben.
Dann führe Folgendes aus:
😎 Cogito 70B Dense in llama.cpp ausführen
Befolge dieselben Anweisungen wie beim Ausführen des 671B-Modells oben.
Dann führe Folgendes aus:
Siehe https://www.deepcogito.com/research/cogito-v2-1 für weitere Details
Zuletzt aktualisiert
War das hilfreich?

