Affinage des LLMs sur NVIDIA DGX Station avec Unsloth

Tutoriel NVIDIA DGX Station sur la façon d'affiner avec les notebooks d'Unsloth.

Vous pouvez désormais entraîner des LLM localement sur votre NVIDIA DGX Station avec Unsloth. La DGX Station dispose de plus de ~200GB VRAM et de plus de 700GB de mémoire unifiée GPU/CPU et combine un CPU Grace et un GPU Blackwell dans un système étroitement connecté conçu pour les charges de travail IA à grande échelle. Reliés par NVLink-C2C, le CPU et le GPU restent distincts mais travaillent ensemble bien plus efficacement que dans une configuration CPU-GPU traditionnelle.

Dans ce guide, nous utiliserons les notebooks Unsloth pour entraîner Qwen3.5 et gpt-oss-120b sur DGX Station. Merci à NVIDIA d'avoir fourni un accès anticipé à du matériel DGX Station pour tester Unsloth !

Démarrage rapide

Vous aurez besoin de python3 installé et en particulier les en-têtes de développement sont nécessaires. Sur notre système nous avons python 3.12 donc nous installerons les en-têtes de développement pour la 3.12.

sudo apt update
sudo apt install python3.12-dev

Ensuite, créez un nouvel environnement virtuel pour installer Unsloth. De cette façon nous minimisons les conflits de dépendances et préservons l'état de l'environnement de travail actuel.

python3 -m venv .unsloth
source .unsloth/bin/activate
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130

Tout d'abord installez torch depuis l'index cuda 13 sinon nous pourrions obtenir la version CPU ou une incompatibilité d'architecture et de capacités !

Maintenant nous pouvons installer Unsloth :

pip install unsloth

Maintenant installons xformers et éventuellement construire flash-attention depuis les sources. Les deux paquets prennent du temps donc veuillez être patient pendant leur compilation.

pip install --no-deps --no-build-isolation xformers==0.0.33.post1
# Optionnellement flash-attn
# Cloner et construire (cible sm_100 pour B300) 
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention 
# B300 = sm_100, définir explicitement l'arch 
TORCH_CUDA_ARCH_LIST="10.0" MAX_JOBS=8 pip install . --no-build-isolation
cd ..

Pour Qwen 3.5 MoE nous voudrons télécharger deux paquets de noyau flash-linear-attention et causal-conv1d pour le rendre rapide.

pip install --no-build-isolation flash-linear-attention causal_conv1d==1.6.0

Si vous n'avez pas encore de client notebook, installez-en un. Pour ce guide nous utiliserons Jupyter Notebook :

cd ..
pip install notebook
pip install ipywidgets

Enfin, nous téléchargeons les notebooks Unsloth à exécuter. Il y a plus de 250 notebooks pour l'entraînement de LLM ainsi que des scripts Python.

git clone https://github.com/unslothai/notebooks.git
cd notebooks

Tutoriels d'entraînement

Maintenant nous pouvons lancer Jupyter Notebook et accéder à l'interface dans un navigateur.

jupyter notebook

Copiez et collez le localhost site avec le paramètre token et collez-le dans votre navigateur. Vous devriez voir quelque chose comme :

Le dossier nb contient tous les notebooks à exécuter.

Entraînement Qwen3.5-35B-A3B

Ouvrez le fichier nb/Qwen3_5_MoE.ipynb. Passez la section d'installation puisque nous avons déjà installé tout ce dont nous avons besoin auparavant. Naviguez jusqu'à la section Unsloth et commencez à exécuter les cellules à partir de là.

Le notebook couvre la configuration du modèle, la préparation du jeu de données et la configuration du trainer. Chaque étape peut prendre du temps car nous téléchargeons un modèle très volumineux, initialisons des milliards de poids, et optimisons encore pour le rendre rapide.

L'entraînement est très rapide avec les paramètres par défaut. Sur la DGX Station il y a suffisamment de mémoire, vous pouvez donc jouer avec les hyperparamètres d'entraînement par défaut pour vraiment pousser la mémoire et le calcul. Une fois l'entraînement terminé, vous pouvez sauvegarder le modèle pour plus tard, le pousser sur Hugging Face Hub pour le partager avec d'autres, ou l'exporter dans un format quantifié.

Entraînement gpt-oss-120b

Ouvrez le fichier nb/gpt-oss-(120B)_A100-Fine-tuning.ipynb. Passez la section d'installation puisque nous avons déjà installé les prérequis et naviguez jusqu'à la section Unsloth. Nous pouvons commencer à exécuter le notebook à partir de là. Le notebook utilisera environ 72 Go de mémoire GPU et prendra environ 10 minutes.

Chaque cellule peut prendre un certain temps à s'exécuter car nous devons télécharger le modèle, initialiser les poids et optimiser davantage pour une expérience fluide. Le notebook passe par le prétraitement du jeu de données et la configuration du trainer. Une fois que nous arrivons à la trainer.train() cellule et l'exécutons, l'entraînement commence.

Maintenant que c'est terminé, nous pouvons sauvegarder le modèle pour une utilisation ultérieure, le pousser sur Hugging Face Hub pour le partager avec le monde, ou l'exporter au format GGUF.

En savoir plus sur la DGX Station de NVIDIA à https://www.nvidia.com/en-us/products/workstations/dgx-station/

PrécédentOpenAI Codex SuivantMulti-GPU Training Unsloth

Mis à jour il y a 6 jours

Ce contenu vous a-t-il été utile ?

hashtagDémarrage rapide

hashtagTutoriels d'entraînement

hashtagEntraînement Qwen3.5-35B-A3B

hashtagEntraînement gpt-oss-120b

Démarrage rapide

Tutoriels d'entraînement

Entraînement Qwen3.5-35B-A3B

Entraînement gpt-oss-120b