Cogito v2.1: Wie man lokal ausführt
Cogito v2.1 LLMs gehören zu den stärksten offenen Modellen der Welt, trainiert mit IDA. Außerdem gibt es v1 in 4 Größen: 70B, 109B, 405B und 671B, sodass du die Größe auswählen kannst, die am besten zu deiner Hardware passt.
Deep Cogito v2.1 ist ein aktualisiertes 671B MoE, das mit Stand 19. November 2025 das leistungsstärkste Modell mit offenen Gewichten ist.
Cogito v2.1 ist in einer 671B MoE-Größe verfügbar, während Cogito v2 Preview Deep CogitoVeröffentlichung von Modellen umfasst 4 Modellgrößen von 70B bis 671B. Durch die Verwendung von IDA (Iterated Distillation & Amplification)werden diese Modelle so trainiert, dass das Modell den Denkprozess internalisiert und durch iterative Policy-Verbesserung lernt, anstatt bei der Inferenzzeit lediglich länger zu suchen (wie DeepSeek R1).
Deep Cogito hat seinen Sitz in San Francisco, USA (wie Unsloth 🇺🇸) und wir freuen uns, quantisierte dynamische Modelle für alle 4 Modellgrößen anzubieten! Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Leistung, das heißt, Sie können diese quantisierten LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen!
Tutorial-Navigation:
671B MoE ausführen109B MoE ausführen405B Dense ausführen70B Dense ausführen
Wählen Sie die Modellgröße, die zu Ihrer Hardware passt! Wir laden Varianten von 1,58bit bis 16bit für alle 4 Modellgrößen hoch!
💎 Modellgrößen und Uploads
Es gibt 4 Modellgrößen:
2 Dense-Modelle basierend auf Llama - 70B und 405B
2 MoE-Modelle basierend auf Llama 4 Scout (109B) und DeepSeek R1 (671B)
Obwohl nicht zwingend erforderlich, sollten für die beste Leistung VRAM + RAM zusammen der Größe des heruntergeladenen Quants entsprechen. Wenn Sie weniger VRAM + RAM haben, funktioniert der Quant weiterhin, ist jedoch deutlich langsamer.
🐳 Cogito 671B MoE in llama.cpp ausführen
Hole dir die neueste
llama.cppauf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze-DGGML_CUDA=OFFdann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Wenn du
llama.cppum Modelle direkt zu laden, können Sie Folgendes tun: (:IQ1_S) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich zuollama run. Verwenden Sieexport LLAMA_CACHE="folder"umllama.cppum an einen bestimmten Ort zu speichern.
Bitte probieren Sie -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert Up- und Down-Projection-MoE-Schichten aus.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur Up-Projection-MoE-Schichten aus.
Und schließlich lagern Sie alle Schichten über -ot ".ffn_.*_exps.=CPU" aus.
Dies verwendet am wenigsten VRAM. Sie können auch den Regex anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"
Lade das Modell herunter via (nach der Installation von
pip install huggingface_hub hf_transfer). Du kannst wählenUD-IQ1_S(dynamischer 1,78bit-Quant) oder andere quantisierte Versionen wieQ4_K_MQ4_K_XL . Wirempfehlen die Verwendung unseres 2,7-Bit Dynamic QuantUD-Q2_K_XL. Mehr Versionen unter: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF
Bearbeiten
Sie können--threads 32für die Anzahl der CPU-Threads bearbeiten,--ctx-size 16384für Kontextlänge,--n-gpu-layers 2
🖱️Cogito 109B MoE in llama.cpp ausführen
Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.
Führen Sie dann Folgendes aus:
🌳Cogito 405B Dense in llama.cpp ausführen
Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.
Führen Sie dann Folgendes aus:
😎 Cogito 70B Dense in llama.cpp ausführen
Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.
Führen Sie dann Folgendes aus:
Tool Calling mit GLM 4.7 https://www.deepcogito.com/research/cogito-v2-1 für weitere Details
Zuletzt aktualisiert
War das hilfreich?

