Cogito v2.1: Anleitung zur lokalen Ausführung
Cogito v2.1 LLMs gehören zu den stärksten offenen Modellen weltweit, trainiert mit IDA. Auch v1 ist in 4 Größen erhältlich: 70B, 109B, 405B und 671B, sodass du die Größe wählen kannst, die am besten zu deiner Hardware passt.
Deep Cogito v2.1 ist ein aktualisiertes 671B MoE, das zum 19. November 2025 das leistungsstärkste Modell mit offenen Gewichten ist.
Cogito v2.1 ist in 1 671B MoE-Größe erhältlich, während Cogito v2 Preview Deep Cogito’s Veröffentlichung von Modellen umfasst 4 Modellgrößen von 70B bis 671B. Durch die Verwendung von IDA (Iterated Distillation & Amplification)werden diese Modelle so trainiert, dass das Modell den Denkprozess durch iterative Policy-Verbesserung internalisiert, anstatt bei der Inferenzzeit einfach länger zu suchen (wie DeepSeek R1).
Deep Cogito hat seinen Sitz in San Francisco, USA (wie Unsloth 🇺🇸) und wir freuen uns, quantisierte dynamische Modelle für alle 4 Modellgrößen anzubieten! Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-shot MMLU- und KL-Divergenz-Leistung, was bedeutet, dass Sie diese quantisierten LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen können!
Tutorial-Navigation:
671B MoE ausführen109B MoE ausführen405B Dense ausführen70B Dense ausführen
Wählen Sie die Modellgröße, die zu Ihrer Hardware passt! Wir laden Varianten von 1,58 Bit bis 16 Bit für alle 4 Modellgrößen hoch!
💎 Modellgrößen und Uploads
Es gibt 4 Modellgrößen:
2 Dense-Modelle basierend auf Llama - 70B und 405B
2 MoE-Modelle basierend auf Llama 4 Scout (109B) und DeepSeek R1 (671B)
Obwohl nicht erforderlich, erzielen Sie die beste Leistung, wenn Ihr VRAM + RAM zusammen der Größe des Quants entsprechen, das Sie herunterladen. Wenn Sie weniger VRAM + RAM haben, funktioniert das Quant weiterhin, ist jedoch deutlich langsamer.
🐳 Cogito 671B MoE in llama.cpp ausführen
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Wenn Sie
llama.cppum Modelle direkt zu laden, können Sie das Folgende tun: (:IQ1_S) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ist ähnlich wieollama run. Verwenden Sieexport LLAMA_CACHE="folder"um zu erzwingen, dassllama.cppan einem bestimmten Ort zu speichern.
Bitte probieren Sie -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dies ermöglicht es effektiv, alle Nicht-MoE-Schichten auf einer GPU unterzubringen und die Generationsgeschwindigkeit zu verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert up- und down-Projektions-MoE-Schichten aus.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur up-Projektions-MoE-Schichten aus.
Und schließlich alle Schichten auslagern über -ot ".ffn_.*_exps.=CPU" Dies verwendet am wenigsten VRAM.
Sie können den Regex auch anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, jedoch nur ab der 6. Schicht.
Laden Sie das Modell herunter über (nach Installation von
pip install huggingface_hub hf_transfer). Sie können wählenUD-IQ1_S(dynamisches 1,78-Bit-Quant) oder andere quantisierte Versionen wieQ4_K_M. Wir empfehlen die Verwendung unserer 2,7-Bit-dynamischen QuantisierungUD-Q2_K_XLum Größe und Genauigkeit auszugleichen. Weitere Versionen unter: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUF
Bearbeiten
--threads 32für die Anzahl der CPU-Threads bearbeiten,--ctx-size 16384für die Kontextlänge,--n-gpu-layers 2für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
🖱️Cogito 109B MoE in llama.cpp ausführen
Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.
Führen Sie dann das Folgende aus:
🌳Cogito 405B Dense in llama.cpp ausführen
Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.
Führen Sie dann das Folgende aus:
😎 Cogito 70B Dense in llama.cpp ausführen
Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.
Führen Sie dann das Folgende aus:
Siehe https://www.deepcogito.com/research/cogito-v2-1 https://github.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data/blob/main/tutorial.ipynb
Zuletzt aktualisiert
War das hilfreich?

