IBM Granite 4.0
Wie man IBM Granite-4.0 mit Unsloth GGUFs auf llama.cpp, Ollama betreibt und wie man es finetunt!
IBM veröffentlicht Granite-4.0-Modelle in 3 Größen einschließlich Nano (350M & 1B), Micro (3B), Tiny (7B/1B aktiv) und Small (32B/9B aktiv). Auf 15T Token trainiert, ermöglicht IBMs neue Hybrid-(H) Mamba-Architektur, dass Granite-4.0-Modelle schneller mit geringerem Speicherverbrauch laufen.
Erfahren wie man ausführt Unsloth Granite-4.0 Dynamic GGUFs oder das Modell feinabstimmt/RL. Sie können Granite-4.0 feinabstimmen mit unserem kostenlosen Colab-Notebook für einen Support-Agent-Anwendungsfall.
AusführungsanleitungFeinabstimmungsanleitung
Unsloth Granite-4.0 Uploads:
Sie können auch unsere Granite-4.0-Sammlung für alle Uploads einschließlich Dynamic Float8-Quants usw. ansehen.
Erklärungen zu Granite-4.0-Modellen:
Nano und H-Nano: Die 350M- und 1B-Modelle bieten starke Fähigkeit zur Befolgung von Anweisungen und ermöglichen fortgeschrittene On-Device- und Edge-AI sowie Forschungs-/Feinabstimmungsanwendungen.
H-Small (MoE): Unternehmensarbeitspferd für tägliche Aufgaben, unterstützt mehrere Langkontext-Sitzungen auf Einstiegs-GPUs wie L40S (32B gesamt, 9B aktiv).
H-Tiny (MoE): Schnell, kosteneffizient für Aufgaben mit hohem Volumen und geringer Komplexität; optimiert für lokale und Edge-Nutzung (7B gesamt, 1B aktiv).
H-Micro (Dense): Leichtgewichtig, effizient für Arbeitslasten mit hohem Volumen und geringer Komplexität; ideal für lokale und Edge-Bereitstellung (3B gesamt).
Micro (Dense): Alternative dichte Option, wenn Mamba2 nicht voll unterstützt wird (3B gesamt).
Granite-4.0-Anleitungen ausführen
⚙️ Empfohlene Inferenz-Einstellungen
IBM empfiehlt diese Einstellungen:
temperature=0.0, top_p=1.0, top_k=0
Temperatur von 0,0
Top_K = 0
Top_P = 1,0
Empfohlener Mindestkontext: 16.384
Maximale Kontextlänge Fenster: 131.072 (128K Kontext)
Chat-Vorlage:
🦙 Ollama: Granite-4.0-Anleitung ausführen
Installieren
ollamafalls Sie es noch nicht getan haben!
Führen Sie das Modell aus! Beachten Sie, dass Sie aufrufen können
ollama servein einem anderen Terminal, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) inparamsin unserem Hugging Face-Upload ein! Sie können den Modellnamen 'granite-4.0-h-small-GGUF' in jeden Granite-Modellnamen wie 'granite-4.0-h-micro:Q8_K_XL' ändern.
📖 llama.cpp: Granite-4.0-Anleitung ausführen
Beschaffen Sie sich das neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setzen Sie-DGGML_CUDA=OFFund fahren dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Wenn Sie
llama.cppdirekt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ähneltollama run
ODER laden Sie das Modell herunter via (nach Installation von
pip install huggingface_hub hf_transfer). Sie können Q4_K_M oder andere quantisierte Versionen wählen (wie BF16 Vollpräzision).
Führen Sie Unsloths Flappy Bird-Test aus
Bearbeiten
--threads 32für die Anzahl der CPU-Threads,--ctx-size 16384für die Kontextlänge (Granite-4.0 unterstützt 128K Kontextlänge!),--n-gpu-layers 99für GPU-Offloading, wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU keinen Speicher mehr hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.Für den Konversationsmodus:
🐋 Docker: Granite-4.0-Anleitung ausführen
Wenn Sie bereits Docker Desktop haben, müssen Sie nur den folgenden Befehl ausführen und sind fertig:
🦥 Feinabstimmung von Granite-4.0 in Unsloth
Unsloth unterstützt jetzt alle Granite-4.0-Modelle einschließlich nano, micro, tiny und small für Feinabstimmung. Das Training ist 2x schneller, verwendet 50 % weniger VRAM und unterstützt 6x längere Kontextlängen. Granite-4.0 micro und tiny passen bequem in eine 15GB-VRAM-T4-GPU.
Granite-4.0 kostenloses Feinabstimmungs-Notebook
Granite-4.0-350M Feinabstimmungs-Notebook
Dieses Notebook trainiert ein Modell, um ein Support-Agent zu werden, der Kundeninteraktionen versteht, inklusive Analyse und Empfehlungen. Diese Einrichtung ermöglicht es Ihnen, einen Bot zu trainieren, der Support-Agenten in Echtzeit unterstützt.
Wir zeigen Ihnen auch, wie man ein Modell mit Daten trainiert, die in einem Google Sheet gespeichert sind.

Unsloth-Konfiguration für Granite-4.0:
Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:
Zuletzt aktualisiert
War das hilfreich?

