IBM Granite 4.0

Wie man IBM Granite-4.0 mit Unsloth-GGUFs auf llama.cpp, Ollama ausführt und wie man es finetunt!

IBM veröffentlicht Granite-4.0-Modelle in 3 Größen, einschließlich Nano (350M & 1B), Micro (3B), Tiny (7B/1B aktiv) und Small (32B/9B aktiv). Auf 15T Tokens trainiert, ermöglicht IBMs neue Hybrid-(H)-Mamba-Architektur den Granite-4.0-Modellen schnelleres Ausführen bei geringerem Speicherverbrauch.

Erfahre wie man ausführt Unsloth Granite-4.0 Dynamic GGUFs oder feinabstimmt/RL das Modell. Du kannst Granite-4.0 feinabstimmen mit unserem kostenlosen Colab-Notebook für einen Support-Agenten-Anwendungsfall.

Ausführungs-Tutorial Feinabstimmungs-Tutorial

Unsloth Granite-4.0 Uploads:

Dynamische GGUFs

Dynamisch 4-bit + FP8

16-Bit Instruct

Dynamisch 4-bit Instruct:

FP8 Dynamisch:

Du kannst auch unsere Granite-4.0-Sammlung für alle Uploads einschließlich Dynamic Float8-Quantisierungen etc. ansehen.

Erklärungen zu Granite-4.0-Modellen:

Nano und H-Nano: Die 350M- und 1B-Modelle bieten starke Fähigkeit zur Befolgung von Anweisungen und ermöglichen fortschrittliche On-Device- und Edge-AI sowie Forschungs-/Feinabstimmungsanwendungen.
H-Small (MoE): Unternehmensarbeitstier für tägliche Aufgaben, unterstützt mehrere Long-Context-Sitzungen auf Einstiegs-GPUs wie L40S (32B insgesamt, 9B aktiv).
H-Tiny (MoE): Schnell, kosteneffizient für Aufgaben mit hohem Volumen und geringer Komplexität; für lokale und Edge-Nutzung optimiert (7B insgesamt, 1B aktiv).
H-Micro (Dense): Leichtgewichtig, effizient für Arbeitslasten mit hohem Volumen und geringer Komplexität; ideal für lokale und Edge-Bereitstellung (3B insgesamt).
Micro (Dense): Alternative Dense-Option, wenn Mamba2 nicht vollständig unterstützt wird (3B insgesamt).

Führe Granite-4.0-Tutorials aus

⚙️ Empfohlene Inferenz-Einstellungen

IBM empfiehlt diese Einstellungen:

temperature=0.0, top_p=1.0, top_k=0

Temperatur von 0.0
Top_K = 0
Top_P = 1.0
Empfohlener Mindestkontext: 16.384
Maximale Kontextfensterlänge: 131.072 (128K Kontext)

Chat-Vorlage:

<|start_of_role|>system<|end_of_role|>Du bist ein hilfreicher Assistent. Bitte stelle sicher, dass die Antworten professionell, genau und sicher sind.<|end_of_text|>
<|start_of_role|>user<|end_of_role|>Bitte nenne ein IBM Research-Labor, das sich in den Vereinigten Staaten befindet. Du solltest nur seinen Namen und seinen Standort ausgeben.<|end_of_text|>
<|start_of_role|>assistant<|end_of_role|>Almaden Research Center, San Jose, Kalifornien<|end_of_text|>

🦙 Ollama: Führe das Granite-4.0-Tutorial aus

Installieren Sie ollama falls du es noch nicht getan hast!

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

Führen Sie das Modell aus! Beachten Sie, dass Sie aufrufen können ollama servein einem anderen Terminal, falls es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params in unserem Hugging Face Upload! Du kannst den Modellnamen 'granite-4.0-h-small-GGUF' in jedes Granite-Modell wie 'granite-4.0-h-micro:Q8_K_XL' ändern.

ollama run hf.co/unsloth/granite-4.0-h-small-GGUF:UD-Q4_K_XL

📖 llama.cpp: Führe das Granite-4.0-Tutorial aus

Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Wenn Sie llama.cpp direkt zum Laden von Modellen kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run

./llama.cpp/llama-cli \
    -hf unsloth/granite-4.0-h-small-GGUF:UD-Q4_K_XL

ODER lade das Modell herunter über (nach der Installation pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wählen (wie BF16 Vollpräzision).

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/granite-4.0-h-small-GGUF",
    local_dir = "unsloth/granite-4.0-h-small-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"], # Für Q4_K_M
)

Führe Unsloths Flappy Bird-Test aus
Bearbeiten --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für Kontextlänge (Granite-4.0 unterstützt 128K Kontextlänge!), --n-gpu-layers 99 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
Für Konversationsmodus:

./llama.cpp/llama-mtmd-cli \
    --model unsloth/granite-4.0-h-small-GGUF/granite-4.0-h-small-UD-Q4_K_XL.gguf \
    --jinja \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 0.0 \
    --top-k 0 \
    --top-p 1.0

🐋 Docker: Führe das Granite-4.0-Tutorial aus

Wenn du bereits Docker Desktop hast, musst du nur den folgenden Befehl ausführen und bist fertig:

docker model pull hf.co/unsloth/granite-4.0-h-small-GGUF:UD-Q4_K_XL

🦥 Feinabstimmung von Granite-4.0 in Unsloth

Unsloth unterstützt jetzt alle Granite 4.0-Modelle einschließlich nano, micro, tiny und small für Feinabstimmung. Das Training ist 2x schneller, verwendet 50% weniger VRAM und unterstützt 6x längere Kontextlängen. Granite-4.0 micro und tiny passen bequem auf eine 15GB-VRAM-T4-GPU.

Granite-4.0 kostenloses Feinabstimmungs-Notebook
Granite-4.0-350M Feinabstimmungs-Notebook

Dieses Notebook trainiert ein Modell, um ein Support-Agent zu werden, der Kundeninteraktionen versteht, einschließlich Analyse und Empfehlungen. Diese Einrichtung ermöglicht es dir, einen Bot zu trainieren, der Support-Agenten in Echtzeit unterstützt.

Wir zeigen dir außerdem, wie man ein Modell mit in einem Google Sheet gespeicherten Daten trainiert.

Unsloth-Konfiguration für Granite-4.0:

!pip install --upgrade unsloth
from unsloth import FastLanguageModel
import torch
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/granite-4.0-h-micro",
    max_seq_length = 2048,   # Kontextlänge - kann länger sein, benutzt aber mehr Speicher
    load_in_4bit = True,     # 4bit verwendet deutlich weniger Speicher
    load_in_8bit = False,    # Etwas genauer, verwendet 2x Speicher
    full_finetuning = False, # Wir haben jetzt Full-Finetuning!
    # token = "hf_...",      # Verwende eines, wenn du Gate-Modelle verwendest
)

Wenn du eine alte Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

VorherigeMagistral NächsteLlama 4

Zuletzt aktualisiert vor 21 Tagen

War das hilfreich?

hashtagFühre Granite-4.0-Tutorials aus

hashtag⚙️ Empfohlene Inferenz-Einstellungen

hashtag🦙 Ollama: Führe das Granite-4.0-Tutorial aus

hashtag📖 llama.cpp: Führe das Granite-4.0-Tutorial aus

hashtag🐋 Docker: Führe das Granite-4.0-Tutorial aus

hashtag🦥 Feinabstimmung von Granite-4.0 in Unsloth