IBM Granite 4.0
Comment exécuter IBM Granite-4.0 avec les GGUF d'Unsloth sur llama.cpp, Ollama et comment le fine-tuner !
IBM lance les modèles Granite-4.0 avec 3 tailles, dont Nano (350M et 1B), Micro (3B), Tiny (7B/1B actifs) et Small (32B/9B actifs). Entraînée sur 15T de jetons, la nouvelle architecture hybride (H) Mamba d’IBM permet aux modèles Granite-4.0 de fonctionner plus rapidement avec une utilisation mémoire réduite.
Découvrez comment exécuter Unsloth Granite-4.0 Dynamic GGUF ou affiner/RL le modèle. Vous pouvez affiner Granite-4.0 avec notre notebook Colab gratuit pour un cas d’utilisation d’agent de support.
Tutoriel d’exécutionTutoriel de fine-tuning
Téléchargements Unsloth Granite-4.0 :
Vous pouvez également consulter notre collection Granite-4.0 pour tous les fichiers téléversés, y compris les quants Dynamic Float8, etc.
Explications des modèles Granite-4.0 :
Nano et H-Nano : Les modèles 350M et 1B offrent de solides capacités de suivi d’instructions, permettant des applications avancées d’IA embarquée et en périphérie, ainsi que de recherche/fine-tuning.
H-Small (MoE) : Cheval de bataille d’entreprise pour les tâches quotidiennes, prend en charge plusieurs sessions à long contexte sur des GPU d’entrée de gamme comme le L40S (32B au total, 9B actifs).
H-Tiny (MoE) : Rapide, économique pour les tâches à grand volume et faible complexité ; optimisé pour une utilisation locale et en périphérie (7B au total, 1B actif).
H-Micro (Dense) : Léger, efficace pour les charges de travail à grand volume et faible complexité ; idéal pour un déploiement local et en périphérie (3B au total).
Micro (Dense) : Option dense alternative lorsque Mamba2 n’est pas entièrement pris en charge (3B au total).
Exécuter les tutoriels Granite-4.0
⚙️ Paramètres d’inférence recommandés
IBM recommande ces paramètres :
temperature=0.0, top_p=1.0, top_k=0
Température de 0.0
Top_K = 0
Top_P = 1.0
Contexte minimum recommandé : 16 384
Fenêtre de longueur de contexte maximale : 131 072 (contexte 128K)
Modèle de chat :
🦙 Ollama : tutoriel pour exécuter Granite-4.0
Installez
ollamasi ce n’est pas déjà fait !
Exécutez le modèle ! Notez que vous pouvez appeler
ollama servedans un autre terminal si cela échoue ! Nous incluons toutes nos corrections et les paramètres suggérés (température, etc.) dansparamsdans notre téléversement sur Hugging Face ! Vous pouvez changer le nom du modèle 'granite-4.0-h-small-GGUF' en n’importe quel modèle Granite comme 'granite-4.0-h-micro:Q8_K_XL'.
📖 llama.cpp : tutoriel pour exécuter Granite-4.0
Obtenez la dernière version de
llama.cppsur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Remplacez-DGGML_CUDA=ONpar-DGGML_CUDA=OFFsi vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez-DGGML_CUDA=OFFpuis continuez comme d’habitude - la prise en charge de Metal est activée par défaut.
Si vous souhaitez utiliser
llama.cppdirectement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez également télécharger via Hugging Face (point 3). C’est similaire àollama run
OU téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisir Q4_K_M, ou d’autres versions quantifiées (comme BF16 en pleine précision).
Exécutez le test Flappy Bird d’Unsloth
Modifiez
--threads 32pour le nombre de threads CPU,--ctx-size 16384pour la longueur de contexte (Granite-4.0 prend en charge une longueur de contexte de 128K !),--n-gpu-layers 99pour le déchargement GPU, selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n’avez qu’une inférence CPU.Pour le mode conversation :
🐋 Docker : tutoriel pour exécuter Granite-4.0
Si vous avez déjà Docker Desktop, tout ce que vous avez à faire est d’exécuter la commande ci-dessous et c’est terminé :
🦥 Fine-tuning de Granite-4.0 dans Unsloth
Unsloth prend désormais en charge tous les modèles Granite 4.0, y compris nano, micro, tiny et small pour le fine-tuning. L’entraînement est 2x plus rapide, utilise 50 % de VRAM en moins et prend en charge des longueurs de contexte 6x plus longues. Granite-4.0 micro et tiny tiennent confortablement dans un GPU T4 de 15 Go de VRAM.
Granite-4.0 notebook gratuit de fine-tuning
Granite-4.0-350M notebook de fine-tuning
Ce notebook entraîne un modèle pour devenir un agent de support qui comprend les interactions clients, avec analyses et recommandations. Cette configuration vous permet d’entraîner un bot qui fournit une assistance en temps réel aux agents de support.
Nous vous montrons également comment entraîner un modèle à l’aide de données stockées dans une feuille Google.

Configuration Unsloth pour Granite-4.0 :
Si vous avez une ancienne version d’Unsloth et/ou si vous effectuez le fine-tuning en local, installez la dernière version d’Unsloth :
Mis à jour
Ce contenu vous a-t-il été utile ?

