IBM Granite 4.1 - Wie man lokal ausführt
Führe IBM Granite-4.1 mit Unsloth-GGUFs aus und erfahre, wie man feinabstimmt!
IBM veröffentlicht Granite-4.1-Modelle mit 3 Größen: 3B, 8B und 30B. Granite-4.1 ist eine Modellfamilie dichter Modelle mit langem Kontext, entwickelt für Anweisungsbefolgung, Tool-Aufrufe, Chat, RAG und Coding-Anwendungsfälle. Die Modelle sind für ihre Größen hochgradig wettbewerbsfähig und wurden auf 15T Token trainiert.
Erfahren Sie, wie Sie Unsloth Granite-4.1 Dynamic GGUFs ausführen oder das Modell feinabstimmen/RL. Sie können Granite-4.1 mit unserem kostenlosen Notebook für einen Support-Agenten-Anwendungsfall feinabstimmen.
Granite-4.1-Modellfamilie:
Granite-4.1-3B Dense: Leichtgewichtig und effizient für lokale, Edge- und Aufgaben mit hohem Volumen. Großartig für schnelle Klassifizierung, Extraktion, einfaches RAG, Funktionsaufrufe und Feinabstimmung auf kleineren GPUs.
Granite-4.1-8B Dense: Ein ausgewogenes Modell für lokale Assistenten, RAG, Coding, mehrsprachigen Chat und Tool-Nutzungs-Workflows. Dies ist eine großartige Standardwahl, wenn Sie eine höhere Qualität wünschen und den Speicherverbrauch dennoch praktikabel halten möchten.
Granite-4.1-30B Dense: Das stärkste Granite-4.1-Modell. Am besten für anspruchsvollere Enterprise-Assistenten, Aufgaben mit langem Kontext, komplexes RAG, Coding, mehrsprachige Workflows und agentische Tool-Calling-Anwendungsfälle.
⚙️ Nutzungsanleitung
Verwenden Sie diese Einstellungen für deterministische, anweisungsbefolgende Antworten:
temperature=0.0, top_p=1.0, top_k=0
Temperatur von
0.0Top_K =
0Top_P =
1.0Empfohlener Mindestkontext:
16,384Maximale Kontextlänge:
131,072Token
Unsloth Granite-4.1 Uploads
Granite-4.1-Tutorials ausführen
In Unsloth Studio ausführenIn llama.cpp ausführen
Verwenden Sie NICHT CUDA 13.2 da Sie sonst unverständliche Ausgaben erhalten könnten. NVIDIA arbeitet an einem Fix.
🦥 Unsloth Studio-Anleitung
Für dieses Tutorial verwenden wir Unsloth Studio, unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle ausführen und Audio, Bild und Text lokal auf Mac, Windowsund Linux eingeben und:
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Modelle vergleichen nebeneinander
Selbstheilendes Tool-Calling + Websuche
Code-Ausführung (Python, Bash)
Automatische Inferenz Parameter-Tuning (Temp, Top-p usw.)
LLMs trainieren 2x schneller mit 70% weniger VRAM

Unsloth Studio einrichten (einmalig)
Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.
WSL-Benutzer: Sie werden aufgefordert, Ihr sudo Passwort einzugeben, um Build-Abhängigkeiten zu installieren (cmake, git, libcurl4-openssl-dev).
Granite 4.1 suchen und herunterladen
Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zum Tab Studio Chat Tab und suchen Sie in der Suchleiste nach Granite 4.1 und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter.
Granite 4.1 ausführen
Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.
Weitere Informationen finden Sie in unserer Unsloth Studio-Inferenzanleitung.
🦙 Llama.cpp-Tutorial
Hole dir die neueste
llama.cpp. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte setzen Sie-DGGML_CUDA=OFFdann wie gewohnt fortfahren — Metal-Unterstützung ist standardmäßig aktiviert.
Wenn du
llama.cppdirekt zum Laden von Modellen, können Sie das Folgende tun.UD-Q4_K_XList der Quantisierungstyp. Sie können ihn auch in andere quantisierte Versionen ändern, wie z. B.Q4_K_M,Q5_K_M,Q8_0oder BF16-Vollpräzision, falls verfügbar.
ODER laden Sie das Modell über Hugging Face herunter, nachdem Sie
huggingface_hubundhf_transfer.
Führen Sie Unsloths Flappy-Bird-Test aus.
Bearbeiten --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, und --n-gpu-layers 99 für GPU-Offloading. Versuchen Sie, die GPU-Layer anzupassen, wenn Ihrem GPU der Speicher ausgeht. Entfernen Sie --n-gpu-layers wenn Sie eine reine CPU-Inferenz verwenden.
Für den Konversationsmodus:
Granite-4.1 in Unsloth feinabstimmen
Unsloth unterstützt Granite-4.1-Modelle einschließlich 3B, 8B und 30B für die Feinabstimmung. Das Training ist 2x schneller, verwendet weniger VRAM und unterstützt längere Kontextlängen. Granite-4.1-3B und Granite-4.1-8B sind die besten Ausgangspunkte für lokale Feinabstimmung, während Granite-4.1-30B das stärkste Modell für Enterprise-Workflows mit höherer Genauigkeit ist.
Granite-4.0 kostenloses Fine-Tuning-Notebook (Modellname in Granite-4.1 ändern)
Dieses Notebook trainiert ein Modell zu einem Support-Agenten, der Kundeninteraktionen versteht, einschließlich Analyse und Empfehlungen. Dieses Setup ermöglicht es Ihnen, einen Bot zu trainieren, der Support-Agenten in Echtzeit unterstützt. Wir zeigen Ihnen auch, wie Sie ein Modell mit in einem Google Sheet gespeicherten Daten trainieren.
Unsloth-Konfiguration für Granite-4.1
Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:
Um die neueste Version von Unsloth und Unsloth Zoo zwangsweise neu zu installieren:
Sie können den Modellnamen in jedes Granite-4.1-Modell ändern:
Verwenden Sie für das 30B-Modell eine größere GPU- oder Multi-GPU-Konfiguration und reduzieren Sie max_seq_length oder erhöhen Sie die Quantisierung, wenn Ihnen der Speicher ausgeht.
Zuletzt aktualisiert
War das hilfreich?


