For the complete documentation index, see llms.txt. This page is also available as Markdown.

IBM Granite 4.1 - Wie man lokal ausführt

Führe IBM Granite-4.1 mit Unsloth-GGUFs aus und erfahre, wie man feinabstimmt!

IBM veröffentlicht Granite-4.1-Modelle mit 3 Größen: 3B, 8B und 30B. Granite-4.1 ist eine Modellfamilie dichter Modelle mit langem Kontext, entwickelt für Anweisungsbefolgung, Tool-Aufrufe, Chat, RAG und Coding-Anwendungsfälle. Die Modelle sind für ihre Größen hochgradig wettbewerbsfähig und wurden auf 15T Token trainiert.

Erfahren Sie, wie Sie Unsloth Granite-4.1 Dynamic GGUFs ausführen oder das Modell feinabstimmen/RL. Sie können Granite-4.1 mit unserem kostenlosen Notebook für einen Support-Agenten-Anwendungsfall feinabstimmen.

Granite-4.1-Modellfamilie:

  • Granite-4.1-3B Dense: Leichtgewichtig und effizient für lokale, Edge- und Aufgaben mit hohem Volumen. Großartig für schnelle Klassifizierung, Extraktion, einfaches RAG, Funktionsaufrufe und Feinabstimmung auf kleineren GPUs.

  • Granite-4.1-8B Dense: Ein ausgewogenes Modell für lokale Assistenten, RAG, Coding, mehrsprachigen Chat und Tool-Nutzungs-Workflows. Dies ist eine großartige Standardwahl, wenn Sie eine höhere Qualität wünschen und den Speicherverbrauch dennoch praktikabel halten möchten.

  • Granite-4.1-30B Dense: Das stärkste Granite-4.1-Modell. Am besten für anspruchsvollere Enterprise-Assistenten, Aufgaben mit langem Kontext, komplexes RAG, Coding, mehrsprachige Workflows und agentische Tool-Calling-Anwendungsfälle.

⚙️ Nutzungsanleitung

Verwenden Sie diese Einstellungen für deterministische, anweisungsbefolgende Antworten:

temperature=0.0, top_p=1.0, top_k=0

  • Temperatur von 0.0

  • Top_K = 0

  • Top_P = 1.0

  • Empfohlener Mindestkontext: 16,384

  • Maximale Kontextlänge: 131,072 Token

Unsloth Granite-4.1 Uploads

Granite-4.1-Tutorials ausführen

In Unsloth Studio ausführenIn llama.cpp ausführen

🦥 Unsloth Studio-Anleitung

Für dieses Tutorial verwenden wir Unsloth Studio, unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle ausführen und Audio, Bild und Text lokal auf Mac, Windowsund Linux eingeben und:

1

Unsloth installieren

MacOS, Linux, WSL:

Windows PowerShell:

2

Unsloth Studio einrichten (einmalig)

Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.

WSL-Benutzer: Sie werden aufgefordert, Ihr sudo Passwort einzugeben, um Build-Abhängigkeiten zu installieren (cmake, git, libcurl4-openssl-dev).

3

Unsloth starten

MacOS, Linux, WSL:

Windows PowerShell:

Dann öffnen Sie http://localhost:8888 in Ihrem Browser.

4

Granite 4.1 suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zum Tab Studio Chat Tab und suchen Sie in der Suchleiste nach Granite 4.1 und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter.

5

Granite 4.1 ausführen

Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserer Unsloth Studio-Inferenzanleitung.

🦙 Llama.cpp-Tutorial

  1. Hole dir die neueste llama.cpp. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte setzen Sie -DGGML_CUDA=OFF dann wie gewohnt fortfahren — Metal-Unterstützung ist standardmäßig aktiviert.

  1. Wenn du llama.cpp direkt zum Laden von Modellen, können Sie das Folgende tun. UD-Q4_K_XL ist der Quantisierungstyp. Sie können ihn auch in andere quantisierte Versionen ändern, wie z. B. Q4_K_M, Q5_K_M, Q8_0 oder BF16-Vollpräzision, falls verfügbar.

  1. ODER laden Sie das Modell über Hugging Face herunter, nachdem Sie huggingface_hub und hf_transfer.

  1. Führen Sie Unsloths Flappy-Bird-Test aus.

Bearbeiten --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, und --n-gpu-layers 99 für GPU-Offloading. Versuchen Sie, die GPU-Layer anzupassen, wenn Ihrem GPU der Speicher ausgeht. Entfernen Sie --n-gpu-layers wenn Sie eine reine CPU-Inferenz verwenden.

  1. Für den Konversationsmodus:

Granite-4.1 in Unsloth feinabstimmen

Unsloth unterstützt Granite-4.1-Modelle einschließlich 3B, 8B und 30B für die Feinabstimmung. Das Training ist 2x schneller, verwendet weniger VRAM und unterstützt längere Kontextlängen. Granite-4.1-3B und Granite-4.1-8B sind die besten Ausgangspunkte für lokale Feinabstimmung, während Granite-4.1-30B das stärkste Modell für Enterprise-Workflows mit höherer Genauigkeit ist.

Dieses Notebook trainiert ein Modell zu einem Support-Agenten, der Kundeninteraktionen versteht, einschließlich Analyse und Empfehlungen. Dieses Setup ermöglicht es Ihnen, einen Bot zu trainieren, der Support-Agenten in Echtzeit unterstützt. Wir zeigen Ihnen auch, wie Sie ein Modell mit in einem Google Sheet gespeicherten Daten trainieren.

Unsloth-Konfiguration für Granite-4.1

Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:

Um die neueste Version von Unsloth und Unsloth Zoo zwangsweise neu zu installieren:

Sie können den Modellnamen in jedes Granite-4.1-Modell ändern:

Verwenden Sie für das 30B-Modell eine größere GPU- oder Multi-GPU-Konfiguration und reduzieren Sie max_seq_length oder erhöhen Sie die Quantisierung, wenn Ihnen der Speicher ausgeht.

Zuletzt aktualisiert

War das hilfreich?