IBM Granite 4.0
Comment exécuter IBM Granite-4.0 avec les GGUF Unsloth sur llama.cpp, Ollama et comment l'affiner !
IBM publie les modèles Granite-4.0 en 3 tailles comprenant Nano (350M & 1B), Micro (3B), Tiny (7B/1B actif) et Small (32B/9B actif). Entraînés sur 15T tokens, la nouvelle architecture hybride (H) Mamba d’IBM permet aux modèles Granite-4.0 de fonctionner plus rapidement avec une utilisation mémoire réduite.
Apprendre comment exécuter les GGUF dynamiques Unsloth Granite-4.0 ou affiner/RL le modèle. Vous pouvez affiner Granite-4.0 avec notre notebook Colab gratuit pour un cas d'utilisation d'agent de support.
Tutoriel d'exécutionTutoriel de fine-tuning
Uploads Unsloth Granite-4.0 :
Vous pouvez aussi consulter notre collection Granite-4.0 pour tous les uploads incluant les quantifications Dynamic Float8, etc.
Explications des modèles Granite-4.0 :
Nano et H-Nano : Les modèles 350M et 1B offrent de solides capacités de suivi d'instructions, permettant des applications avancées d'IA sur appareil et en edge ainsi que des usages de recherche/affinage.
H-Small (MoE) : Outil de travail d'entreprise pour les tâches quotidiennes, prend en charge plusieurs sessions long-contexte sur des GPU d'entrée comme le L40S (32B total, 9B actif).
H-Tiny (MoE) : Rapide, économique pour des tâches à fort volume et faible complexité ; optimisé pour une utilisation locale et en edge (7B total, 1B actif).
H-Micro (Dense) : Léger, efficace pour des charges de travail à fort volume et faible complexité ; idéal pour le déploiement local et en edge (3B total).
Micro (Dense) : Option dense alternative lorsque Mamba2 n'est pas entièrement pris en charge (3B total).
Exécuter les tutoriels Granite-4.0
⚙️ Paramètres d'inférence recommandés
IBM recommande ces paramètres :
temperature=0.0, top_p=1.0, top_k=0
Température de 0.0
Top_K = 0
Top_P = 1.0
Contexte minimum recommandé : 16 384
Longueur maximale de contexte : 131 072 (contexte 128K)
Modèle de chat :
🦙 Ollama : Exécuter le tutoriel Granite-4.0
Installez
ollamasi vous ne l'avez pas encore fait !
Exécutez le modèle ! Notez que vous pouvez appeler
ollama servedans un autre terminal s'il échoue ! Nous incluons toutes nos corrections et paramètres suggérés (température, etc.) dansparamsdans notre upload Hugging Face ! Vous pouvez changer le nom du modèle 'granite-4.0-h-small-GGUF' par n'importe quel modèle Granite comme 'granite-4.0-h-micro:Q8_K_XL'.
📖 llama.cpp : Exécuter le tutoriel Granite-4.0
Obtenez le dernier
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Si vous voulez utiliser
llama.cppdirectement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Ceci est similaire àollama run
OU télécharger le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisir Q4_K_M, ou d'autres versions quantifiées (comme BF16 pleine précision).
Exécuter le test Flappy Bird d'Unsloth
éditer
--threads 32pour le nombre de threads CPU,--ctx-size 16384pour la longueur du contexte (Granite-4.0 prend en charge une longueur de contexte de 128K !),--n-gpu-layers 99pour le déchargement GPU sur le nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n'avez qu'une inférence CPU.Pour le mode conversation :
🐋 Docker : Exécuter le tutoriel Granite-4.0
Si vous avez déjà Docker Desktop, il vous suffit d'exécuter la commande ci-dessous et c'est terminé :
🦥 Affinage (fine-tuning) de Granite-4.0 dans Unsloth
Unsloth prend désormais en charge tous les modèles Granite 4.0, y compris nano, micro, tiny et small pour le fine-tuning. L'entraînement est 2x plus rapide, utilise 50% moins de VRAM et prend en charge des longueurs de contexte 6x plus longues. Granite-4.0 micro et tiny tiennent confortablement dans un GPU T4 de 15 Go de VRAM.
Granite-4.0 notebook de fine-tuning gratuit
Granite-4.0-350M notebook de fine-tuning
Ce notebook entraîne un modèle pour devenir un agent de support qui comprend les interactions clients, avec analyses et recommandations. Cette configuration vous permet d'entraîner un bot fournissant une assistance en temps réel aux agents de support.
Nous vous montrons aussi comment entraîner un modèle en utilisant des données stockées dans une feuille Google.

Configuration Unsloth pour Granite-4.0 :
Si vous avez une ancienne version d'Unsloth et/ou si vous effectuez le fine-tuning localement, installez la dernière version d'Unsloth :
Mis à jour
Ce contenu vous a-t-il été utile ?

