IBM Granite 4.0
Wie man IBM Granite-4.0 mit Unsloth-GGUFs auf llama.cpp, Ollama ausführt und wie man es finetunt!
IBM veröffentlicht Granite-4.0-Modelle in 3 Größen, einschließlich Nano (350M & 1B), Micro (3B), Tiny (7B/1B aktiv) und Small (32B/9B aktiv). Auf 15T Tokens trainiert, ermöglicht IBMs neue Hybrid-(H)-Mamba-Architektur den Granite-4.0-Modellen schnelleres Ausführen bei geringerem Speicherverbrauch.
Erfahre wie man ausführt Unsloth Granite-4.0 Dynamic GGUFs oder feinabstimmt/RL das Modell. Du kannst Granite-4.0 feinabstimmen mit unserem kostenlosen Colab-Notebook für einen Support-Agenten-Anwendungsfall.
Ausführungs-TutorialFeinabstimmungs-Tutorial
Unsloth Granite-4.0 Uploads:
Du kannst auch unsere Granite-4.0-Sammlung für alle Uploads einschließlich Dynamic Float8-Quantisierungen etc. ansehen.
Erklärungen zu Granite-4.0-Modellen:
Nano und H-Nano: Die 350M- und 1B-Modelle bieten starke Fähigkeit zur Befolgung von Anweisungen und ermöglichen fortschrittliche On-Device- und Edge-AI sowie Forschungs-/Feinabstimmungsanwendungen.
H-Small (MoE): Unternehmensarbeitstier für tägliche Aufgaben, unterstützt mehrere Long-Context-Sitzungen auf Einstiegs-GPUs wie L40S (32B insgesamt, 9B aktiv).
H-Tiny (MoE): Schnell, kosteneffizient für Aufgaben mit hohem Volumen und geringer Komplexität; für lokale und Edge-Nutzung optimiert (7B insgesamt, 1B aktiv).
H-Micro (Dense): Leichtgewichtig, effizient für Arbeitslasten mit hohem Volumen und geringer Komplexität; ideal für lokale und Edge-Bereitstellung (3B insgesamt).
Micro (Dense): Alternative Dense-Option, wenn Mamba2 nicht vollständig unterstützt wird (3B insgesamt).
Führe Granite-4.0-Tutorials aus
⚙️ Empfohlene Inferenz-Einstellungen
IBM empfiehlt diese Einstellungen:
temperature=0.0, top_p=1.0, top_k=0
Temperatur von 0.0
Top_K = 0
Top_P = 1.0
Empfohlener Mindestkontext: 16.384
Maximale Kontextfensterlänge: 131.072 (128K Kontext)
Chat-Vorlage:
🦙 Ollama: Führe das Granite-4.0-Tutorial aus
Installieren Sie
ollamafalls du es noch nicht getan hast!
Führen Sie das Modell aus! Beachten Sie, dass Sie aufrufen können
ollama servein einem anderen Terminal, falls es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) inparamsin unserem Hugging Face Upload! Du kannst den Modellnamen 'granite-4.0-h-small-GGUF' in jedes Granite-Modell wie 'granite-4.0-h-micro:Q8_K_XL' ändern.
📖 llama.cpp: Führe das Granite-4.0-Tutorial aus
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Wenn Sie
llama.cppdirekt zum Laden von Modellen kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wieollama run
ODER lade das Modell herunter über (nach der Installation
pip install huggingface_hub hf_transfer). Du kannst Q4_K_M oder andere quantisierte Versionen wählen (wie BF16 Vollpräzision).
Führe Unsloths Flappy Bird-Test aus
Bearbeiten
--threads 32für die Anzahl der CPU-Threads bearbeiten,--ctx-size 16384für Kontextlänge (Granite-4.0 unterstützt 128K Kontextlänge!),--n-gpu-layers 99für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.Für Konversationsmodus:
🐋 Docker: Führe das Granite-4.0-Tutorial aus
Wenn du bereits Docker Desktop hast, musst du nur den folgenden Befehl ausführen und bist fertig:
🦥 Feinabstimmung von Granite-4.0 in Unsloth
Unsloth unterstützt jetzt alle Granite 4.0-Modelle einschließlich nano, micro, tiny und small für Feinabstimmung. Das Training ist 2x schneller, verwendet 50% weniger VRAM und unterstützt 6x längere Kontextlängen. Granite-4.0 micro und tiny passen bequem auf eine 15GB-VRAM-T4-GPU.
Granite-4.0 kostenloses Feinabstimmungs-Notebook
Granite-4.0-350M Feinabstimmungs-Notebook
Dieses Notebook trainiert ein Modell, um ein Support-Agent zu werden, der Kundeninteraktionen versteht, einschließlich Analyse und Empfehlungen. Diese Einrichtung ermöglicht es dir, einen Bot zu trainieren, der Support-Agenten in Echtzeit unterstützt.
Wir zeigen dir außerdem, wie man ein Modell mit in einem Google Sheet gespeicherten Daten trainiert.

Unsloth-Konfiguration für Granite-4.0:
Wenn du eine alte Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:
Zuletzt aktualisiert
War das hilfreich?

