IBM Granite 4.0
Wie man IBM Granite-4.0 mit Unsloth-GGUFs in llama.cpp und Ollama ausführt und wie man feinabstimmt!
IBM veröffentlicht Granite-4.0-Modelle mit 3 Größen, darunter Nano (350M & 1B), Micro (3B), Tiny (7B/1B aktiv) und Small (32B/9B aktiv). Auf 15T Tokens trainiert, ermöglicht IBMs neue Hybrid-(H)-Mamba-Architektur, dass Granite-4.0-Modelle schneller und mit geringerem Speicherverbrauch laufen.
Erfahren Sie wie man Unsloth Granite-4.0 Dynamic GGUFs ausführt oder das Modell feinabstimmt/RL. Sie können Granite-4.0 feinabstimmen mit unserem kostenlosen Colab-Notebook für einen Anwendungsfall als Support-Agent.
AusführungstutorialFeinabstimmungstutorial
Unsloth Granite-4.0 Uploads:
Sie können auch unsere Granite-4.0-Sammlung für alle Uploads einschließlich Dynamic Float8 Quants usw. ansehen.
Erklärungen zu Granite-4.0-Modellen:
Nano und H-Nano: Die Modelle 350M und 1B bieten starke Fähigkeiten zur Befolgung von Anweisungen und ermöglichen fortgeschrittene On-Device- und Edge-KI sowie Forschungs-/Feinabstimmungsanwendungen.
H-Small (MoE): Arbeitstier für Unternehmen für tägliche Aufgaben, unterstützt mehrere Long-Context-Sitzungen auf Einstiegs-GPUs wie L40S (insgesamt 32B, 9B aktiv).
H-Tiny (MoE): Schnell, kosteneffizient für Aufgaben mit hohem Volumen und geringer Komplexität; optimiert für lokale und Edge-Nutzung (insgesamt 7B, 1B aktiv).
H-Micro (Dense): Leichtgewichtig, effizient für Workloads mit hohem Volumen und geringer Komplexität; ideal für lokale und Edge-Bereitstellung (insgesamt 3B).
Micro (Dense): Alternative dichte Option, wenn Mamba2 nicht vollständig unterstützt wird (insgesamt 3B).
Granite-4.0-Tutorials ausführen
⚙️ Empfohlene Inferenz-Einstellungen
IBM empfiehlt diese Einstellungen:
temperature=0.0, top_p=1.0, top_k=0
Temperatur von 0,0
Top_K = 0
Top_P = 1,0
Empfohlenes Mindest-Kontextfenster: 16.384
Maximale Kontextfensterlänge: 131.072 (128K Kontext)
Chat-Vorlage:
🦙 Ollama: Granite-4.0-Tutorial ausführen
Installieren Sie
ollamafalls Sie es noch nicht getan haben!
Führen Sie das Modell aus! Beachten Sie, dass Sie
ollama servein einem anderen Terminal aufrufen können, falls es fehlschlägt! Wir enthalten alle unsere Korrekturen und vorgeschlagenen Parameter (Temperatur usw.) inparamsin unserem Hugging-Face-Upload! Sie können den Modellnamen 'granite-4.0-h-small-GGUF' in jedes Granite-Modell ändern, z. B. 'granite-4.0-h-micro:Q8_K_XL'.
📖 llama.cpp: Granite-4.0-Tutorial ausführen
Holen Sie sich die neueste Version von
llama.cppauf GitHub hier. Sie können auch den untenstehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONin-DGGML_CUDA=OFFwenn Sie keine GPU haben oder einfach nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setzen Sie-DGGML_CUDA=OFFund fahren Sie dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.
Wenn Sie
llama.cppdirekt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wieollama run
ODER laden Sie das Modell über herunter (nachdem Sie
pip install huggingface_hub hf_transferinstalliert haben). Sie können Q4_K_M oder andere quantisierte Versionen wählen (z. B. BF16 Vollpräzision).
Unsloths Flappy-Bird-Test ausführen
Bearbeiten Sie
--threads 32für die Anzahl der CPU-Threads,--ctx-size 16384für die Kontextlänge (Granite-4.0 unterstützt eine Kontextlänge von 128K!),--n-gpu-layers 99für GPU-Auslagerung auf wie vielen Layern. Versuchen Sie, dies anzupassen, wenn Ihrer GPU der Speicher ausgeht. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.Für den Gesprächsmodus:
🐋 Docker: Granite-4.0-Tutorial ausführen
Wenn Sie bereits Docker Desktop haben, müssen Sie nur den folgenden Befehl ausführen, und dann sind Sie fertig:
🦥 Granite-4.0 in Unsloth feinabstimmen
Unsloth unterstützt jetzt alle Granite-4.0-Modelle, einschließlich nano, micro, tiny und small, für die Feinabstimmung. Das Training ist 2x schneller, verbraucht 50 % weniger VRAM und unterstützt 6x längere Kontextfenster. Granite-4.0 micro und tiny passen bequem in eine 15-GB-VRAM-T4-GPU.
Granite-4.0 kostenloses Feinabstimmungs-Notebook
Granite-4.0-350M Feinabstimmungs-Notebook
Dieses Notebook trainiert ein Modell, damit es ein Support-Agent wird, der Kundeninteraktionen versteht, inklusive Analyse und Empfehlungen. Dieses Setup ermöglicht es Ihnen, einen Bot zu trainieren, der Support-Mitarbeitern Hilfe in Echtzeit bietet.
Wir zeigen Ihnen auch, wie Sie ein Modell mit in einem Google Sheet gespeicherten Daten trainieren.

Unsloth-Konfiguration für Granite-4.0:
Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:
Zuletzt aktualisiert
War das hilfreich?

