hexagonCogito v2.1: Anleitung zur lokalen Ausführung

Cogito v2.1 LLMs gehören zu den stärksten offenen Modellen weltweit, trainiert mit IDA. Auch v1 ist in 4 Größen erhältlich: 70B, 109B, 405B und 671B, sodass du die Größe wählen kannst, die am besten zu deiner Hardware passt.

circle-check

Cogito v2.1 ist in 1 671B MoE-Größe erhältlich, während Cogito v2 Preview Deep Cogitoarrow-up-right’s Veröffentlichung von Modellen umfasst 4 Modellgrößen von 70B bis 671B. Durch die Verwendung von IDA (Iterated Distillation & Amplification)werden diese Modelle so trainiert, dass das Modell den Denkprozess durch iterative Policy-Verbesserung internalisiert, anstatt bei der Inferenzzeit einfach länger zu suchen (wie DeepSeek R1).

Deep Cogito hat seinen Sitz in San Francisco, USAarrow-up-right (wie Unsloth 🇺🇸) und wir freuen uns, quantisierte dynamische Modelle für alle 4 Modellgrößen anzubieten! Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-shot MMLU- und KL-Divergenz-Leistung, was bedeutet, dass Sie diese quantisierten LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen können!

Tutorial-Navigation:

671B MoE ausführen109B MoE ausführen405B Dense ausführen70B Dense ausführen

circle-check

💎 Modellgrößen und Uploads

Es gibt 4 Modellgrößen:

  1. 2 Dense-Modelle basierend auf Llama - 70B und 405B

  2. 2 MoE-Modelle basierend auf Llama 4 Scout (109B) und DeepSeek R1 (671B)

Modellgrößen
Empfohlene Quant & Link
Platten-/Festplattengröße
Architektur

70B Dense

44GB

Llama 3 70B

109B MoE

50GB

Llama 4 Scout

405B Dense

152GB

Llama 3 405B

671B MoE

251GB

DeepSeek R1

circle-check

🐳 Cogito 671B MoE in llama.cpp ausführen

  1. Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

  1. Wenn Sie llama.cpp um Modelle direkt zu laden, können Sie das Folgende tun: (:IQ1_S) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, dass llama.cpp an einem bestimmten Ort zu speichern.

circle-check
  1. Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen UD-IQ1_S(dynamisches 1,78-Bit-Quant) oder andere quantisierte Versionen wie Q4_K_M . Wir empfehlen die Verwendung unserer 2,7-Bit-dynamischen Quantisierung UD-Q2_K_XL um Größe und Genauigkeit auszugleichen. Weitere Versionen unter: https://huggingface.co/unsloth/cogito-671b-v2.1-GGUFarrow-up-right

  1. Bearbeiten --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

🖱️Cogito 109B MoE in llama.cpp ausführen

  1. Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.

  2. Führen Sie dann das Folgende aus:

🌳Cogito 405B Dense in llama.cpp ausführen

  1. Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.

  2. Führen Sie dann das Folgende aus:

😎 Cogito 70B Dense in llama.cpp ausführen

  1. Befolgen Sie die gleichen Anweisungen wie beim Ausführen des 671B-Modells oben.

  2. Führen Sie dann das Folgende aus:

Siehe https://www.deepcogito.com/research/cogito-v2-1arrow-up-right https://github.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data/blob/main/tutorial.ipynb

Zuletzt aktualisiert

War das hilfreich?