square-up-rightHackathon de données synthétiques AMD PyTorch Unsloth

Conseils & astuces, dépannage et guide pour exécuter Unsloth sur un GPU AMD.

Une fois que vous avez accès à une machine MI300, vous verrez une interface Jupyter Notebook :

Tout d'abord, mettez à jour Unsloth et confirmez que tout fonctionne comme prévu - cliquez sur Terminal

Ensuite, exécutez ce qui suit dans le Terminal pour mettre à jour Unsloth - assurez-vous que la version est 2025.10.5 ou supérieure.

Pour créer un nouveau Notebook ou Terminal, cliquez sur le bouton PLUS

circle-check

🦋TUTORIEL 1 : Confirmation du bon fonctionnement d'Unsloth

Confirmez que notre simple notebook conversationnel Llama 3.2 1B / 3B s'exécute comme prévu dans un nouveau Terminal.

Vous devriez voir ce qui suit (cela prendra 2 minutes). Si quelque chose casse, essayez d'abord de mettre à jour Unsloth via

🦥TUTORIEL 2 : Exécution de la génération de données synthétiques

circle-check

Maintenant, essayons l'exemple à https://github.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Dataarrow-up-right et aussi https://www.amd.com/en/developer/resources/technical-articles/2025/10x-model-fine-tuning-using-synthetic-data-with-unsloth.htmlarrow-up-right

Tout d'abord, créez un nouveau Terminal à nouveau - le bouton PLUS permettra un nouveau Terminal.

Exécutez vLLM pour charger Llama 3.3 70B Instruct dans un nouveau Terminal (utilisez le bouton PLUS pour un nouveau Terminal)

Vous verrez :

Attendez jusqu'à ce que vous voyiez INFO: Application startup complete. puis cliquez sur le bouton PLUS pour ouvrir un nouvel onglet

Installez synthetic-data-kit https://github.com/meta-llama/synthetic-data-kitarrow-up-right dans un nouveau Terminal fenêtre.

Obtenez config.yaml soit depuis https://raw.githubusercontent.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data/refs/heads/main/config.yamlarrow-up-right, ou ci-dessous :

file-download
7KB

Vérifiez si synthetic data kit a fonctionné via. Si vous voyez des erreurs, confirmez que vLLM s'exécute dans la 1ʳᵉ cellule.

Maintenant, récupérez quelques fichiers que nous utiliserons pour le traitement :

Maintenant, ingérons les données et traitons-les :

Maintenant, créez soit des Q&R (paires question & réponse) soit des CoT (paires chaîne de pensée) (cela peut prendre 3 minutes)

Maintenant, demandons à un LLM de curer les données et d'appeler le LLM comme juge pour supprimer les lignes de données synthétiques moins désirables, puis nous enregistrons la sortie - cela peut prendre 3 minutes

Encore une fois, ARRÊTEZ le service vLLM pour économiser la VRAM !!! Retournez à l'onglet précédent, et faites CTRL+C 3 fois. Ou voyez Hackathon de données synthétiques AMD PyTorch Unsloth

Maintenant récupérez le notebook que nous allons exécuter à https://github.com/unslothai/notebooks/blob/main/nb/Synthetic_Data_Hackathon.ipynbarrow-up-right:

circle-info

Si vous obtenez des erreurs Out of Memory, arrêtez votre instance vLLM - voir Hackathon de données synthétiques AMD PyTorch Unsloth

Cliquez sur le bouton dossier à gauche et ouvrez "Synthetic_Data_Hackathon.ipynb" (double-cliquez)

Ensuite, exécutez tout !

Vous verrez au milieu du notebook :

Voir https://github.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data/blob/main/tutorial.ipynbarrow-up-right pour plus de détails

🐬TUTORIEL 3 : GPT-OSS Création automatique de kernels par apprentissage par renforcement

Vous pouvez exécuter ceci en tant que notebook ou via un script Python !

Script Python : https://github.com/unslothai/notebooks/blob/main/python_scripts/gpt_oss_(20B)_GRPO_BF16.pyarrow-up-right

Notebook : https://github.com/unslothai/notebooks/blob/main/nb/gpt_oss_(20B)_GRPO_BF16.ipynbarrow-up-right

Ensuite, comme dans le Tutoriel 2, ouvrez le fichier "Auto_Kernels_RL.ipynb", redémarrez et exécutez tout !

Si vous l'exécutez et faites défiler vers le bas, vous verrez le jeu 2048 être exécuté via des stratégies auto-générées par RL :

♦️TUTORIEL 4 : GPT-OSS Apprentissage par renforcement Jeu 2048

Vous pouvez exécuter ceci en tant que notebook ou via un script Python !

Script Python : https://github.com/unslothai/notebooks/blob/main/python_scripts/gpt_oss_(20B)_GRPO_BF16.pyarrow-up-right

Notebook : https://github.com/unslothai/notebooks/blob/main/nb/gpt_oss_(20B)_Reinforcement_Learning_2048_Game_BF16.ipynbarrow-up-right

Ensuite, comme pour le Tutoriel 3, ouvrez le fichier "Auto_Kernels_RL.ipynb", redémarrez et exécutez tout !

Lorsque vous faites défiler vers le bas, vous verrez l'algorithme RL créer automatiquement des stratégies pour gagner à 2048 !

🌻Commandes vLLM optimales sur AMD

Pour servir des modèles sur des GPU AMD, veuillez utiliser les commandes suivantes qui amélioreront les performances. Confirmez qu'aiter et flash-attention sont installés ou voyez Hackathon de données synthétiques AMD PyTorch Unsloth

Pour MI300X, MI325X et GPU Radeon :

Pour MI355X, faites ce qui suit :

🛠️Dépannage et FAQ

🆓Comment libérer la mémoire GPU AMD ?

Si vous êtes sur une image Docker (comme le hackathon) exécutez ce qui suit dans un nouveau Terminal rocm-smi -d 0 --showpids si sur une machine locale

Si sur une machine locale, faites simplement rocm-smi -d 0 --showpids et exécutez sudo kill -9 XXXXXXXX est le PID répertorié pour ce processus spécifique qui utilise le plus de VRAM.

Pour l'image Docker comme dans le hackathon, après avoir exécuté la première cellule, vous pourriez voir quelque chose comme ci-dessous :

Puis recherchez le processus qui utilise la VRAM (comme vLLM), et tapez sudo kill -9 XXXXXXXX est le PID répertorié dans la colonne de gauche comme ci-dessous :

Confirmez que toute la mémoire GPU est libérée via rocm-smi -d 0 --showpids Par exemple ci-dessous montre 0 d'utilisation mémoire :

Si d'autre part vous voyez ce qui suit, relancez la première cellule Docker pour tuer à nouveau le processus.

📝torch.OutOfMemoryError: HIP out of memory RuntimeError: Engine process failed to start.

Veuillez consulter Hackathon de données synthétiques AMD PyTorch Unsloth pour vérifier si votre GPU utilise la mémoire d'un autre processus et essayez de supprimer ce processus qui utilise la mémoire.

Essayez aussi amd-smi process --gpu 0 pour lister tous les processus et l'utilisation de la VRAM pour tous les processus utilisant le GPU :

▶️Aucune plateforme détectée pour vLLM, mise à niveau de vLLM, gpt-oss sur vLLM

Si vous exécutez vllm serve Unsloth/gpt-oss-20b vous pourriez utiliser une ancienne version de vLLM. python -c "import vllm; print(vllm.__version__)" pour obtenir la version de vLLM.

Dans le docker pré-construit du hackathon, vous obtiendrez 0.7.4 , qui malheureusement ne prend pas en charge les modèles plus récents comme GPT-OSS, cependant, d'autres modèles fonctionnent comme vllm serve Unsloth/Llama-3.3-70B-Instruct --port 8001 --max-model-len 48000 --gpu-memory-utilization 0.85

🧁Mise à jour de vLLM vers la dernière version sur AMD

circle-exclamation

Pour obtenir la dernière version de vLLM, veuillez voir https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html#install-specific-revisionsarrow-up-right, exécutez spécifiquement ce qui suit, après avoir fermé tous les processus utilisant le GPU AMD via Hackathon de données synthétiques AMD PyTorch Unsloth

L'exécution de ce qui précède produira (rappel : arrêtez d'abord tous les processus utilisant le GPU ! Voir Hackathon de données synthétiques AMD PyTorch Unsloth)

chevron-right(Code réductible OPTIONNEL) Pour construire Flash Attention via (cela prendra 30 minutes à 1 heure) Donc ceci est optionnel si vous ne voulez pas attendre 30 minutes à 1 heure ! Je sauterais généralement ce processus. Développez cette cellule si vous souhaitez installer Flash Attention.hashtag

Vous verrez :

Pour surveiller la progression de Flash-Attention (qui peut être très longue), surveillez la progression [296/2206].

(NON OPTIONNEL) Puis construisez aiter AI Tensor Engine pour ROCmarrow-up-right (cela prendra 5 minutes)

(NON OPTIONNEL) Ensuite, construisez vLLM :

Vous verrez ce qui suit (veuillez patienter 5 à 10 minutes !)

Confirmez que vLLM, torch ont été mis à jour via

qui devrait indiquer que vLLM est 0.11.0 ou supérieur, et torch DOIT être 2.8.0 à partir d'octobre 2025. Le type vllm pour confirmer que vLLM fonctionne comme prévu.

📖Exécution de unsloth/gpt-oss-20b dans vLLM

circle-exclamation

Après avoir mis à jour vLLM via Hackathon de données synthétiques AMD PyTorch Unsloth, vous pouvez exécuter gpt-oss-20barrow-up-right! Voir Hackathon de données synthétiques AMD PyTorch Unsloth pour de meilleures commandes optimales pour exécuter vllm sur GPU AMD (vous pourriez obtenir une inférence plus rapide !)

⁉️RuntimeError: User specified an unsupported autocast device_type 'hip'

Veuillez mettre à jour Unsloth ! Voir ci-dessous Hackathon de données synthétiques AMD PyTorch Unsloth

🐛NotImplementedError: Unsloth actuellement ok

🆕Mise à jour d'Unsloth

Tout d'abord, mettez à jour Unsloth et confirmez que tout fonctionne comme prévu - cliquez sur Terminal

Ensuite, exécutez ce qui suit dans le Terminal pour mettre à jour Unsloth - assurez-vous que la version est 2025.10.5 ou supérieure.

Vous devez également REDÉMARRER l'environnement d'exécution

⁉️terminate called after throwing an instance of 'std::logic_error' what()

Veuillez vérifier que vous êtes sur torch==2.8.0. Relancez ce qui suit :

System has not been booted, Failed to connect to bus

Vous pourriez voir ce qui suit :

Veuillez nous contacter afin que nous puissions redémarrer la machine !

🐛Binaire ROCm configuré introuvable - get_native_library()

Cela indique que bitsandbytes n'est pas installé correctement comme ci-dessous :

Veuillez consulter Hackathon de données synthétiques AMD PyTorch Unslothpour mettre à jour bitsandbytes et Unsloth !

NotImplementedError: Cannot copy out of meta tensor; no data!

Ceci signifie que vous êtes à court de mémoire. Voir Hackathon de données synthétiques AMD PyTorch Unsloth pour libérer la mémoire GPU.

💭Échec d'importation depuis vllm._C avec ModuleNotFoundError("No module named 'vllm._C'")

Veuillez réinstaller vLLM. Utilisez vllm_build comme dossier dans lequel vous clonez le dépôt et non vllm. Hackathon de données synthétiques AMD PyTorch Unsloth

😯ModuleNotFoundError: No module named 'vllm'

Veuillez ne pas rm -rf vllm_build le dossier que vous avez construit. Ou réinstallez vllm via Hackathon de données synthétiques AMD PyTorch Unsloth

📒ipykernel>6.30.1 casse les barres de progression.

Si vous voyez ce qui suit :

Pour l'instant ignorez-le - vous ne verrez simplement pas les barres de progression pour le téléchargement et l'upload des modèles.

🐛AssertionError: No MXFP4 MoE backend

Si vous exécutez gpt-oss-20b et voyez ceci pendant vLLM, veuillez réinstaller vLLM via Hackathon de données synthétiques AMD PyTorch Unsloth

🤕NotImplementedError: Could not run `aten::empty_strided`

Veuillez utiliser .to("cuda") et non .to("hip") Mettez aussi à jour Unsloth Hackathon de données synthétiques AMD PyTorch Unsloth

🐛NotImplementedError: Could not run 'aten::empty.memory_format'

Veuillez consulter Hackathon de données synthétiques AMD PyTorch Unslothpour mettre à jour bitsandbytes et Unsloth !

Mis à jour

Ce contenu vous a-t-il été utile ?