Hackathon de données synthétiques AMD PyTorch Unsloth
Conseils & astuces, dépannage et guide pour exécuter Unsloth sur un GPU AMD.
Une fois que vous avez accès à une machine MI300, vous verrez une interface Jupyter Notebook :

Tout d'abord, mettez à jour Unsloth et confirmez que tout fonctionne comme prévu - cliquez sur Terminal

Ensuite, exécutez ce qui suit dans le Terminal pour mettre à jour Unsloth - assurez-vous que la version est 2025.10.5 ou supérieure.

Pour créer un nouveau Notebook ou Terminal, cliquez sur le bouton PLUS

Ouvrez le fichier README.ipynb pour lire les instructions et les critères de notation
🦋TUTORIEL 1 : Confirmation du bon fonctionnement d'Unsloth
Confirmez que notre simple notebook conversationnel Llama 3.2 1B / 3B s'exécute comme prévu dans un nouveau Terminal.
Vous devriez voir ce qui suit (cela prendra 2 minutes). Si quelque chose casse, essayez d'abord de mettre à jour Unsloth via


🦥TUTORIEL 2 : Exécution de la génération de données synthétiques
Vous pouvez aussi exécuter le tutorial.ipynb qui devrait être sur notre machine immédiatement sans regarder ci-dessous :
Maintenant, essayons l'exemple à https://github.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data et aussi https://www.amd.com/en/developer/resources/technical-articles/2025/10x-model-fine-tuning-using-synthetic-data-with-unsloth.html
Tout d'abord, créez un nouveau Terminal à nouveau - le bouton PLUS permettra un nouveau Terminal.

Exécutez vLLM pour charger Llama 3.3 70B Instruct dans un nouveau Terminal (utilisez le bouton PLUS pour un nouveau Terminal)
Vous verrez :

Attendez jusqu'à ce que vous voyiez INFO: Application startup complete. puis cliquez sur le bouton PLUS pour ouvrir un nouvel onglet

Installez synthetic-data-kit https://github.com/meta-llama/synthetic-data-kit dans un nouveau Terminal fenêtre.

Obtenez config.yaml soit depuis https://raw.githubusercontent.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data/refs/heads/main/config.yaml, ou ci-dessous :
Vérifiez si synthetic data kit a fonctionné via. Si vous voyez des erreurs, confirmez que vLLM s'exécute dans la 1ʳᵉ cellule.

Maintenant, récupérez quelques fichiers que nous utiliserons pour le traitement :

Maintenant, ingérons les données et traitons-les :
Maintenant, créez soit des Q&R (paires question & réponse) soit des CoT (paires chaîne de pensée) (cela peut prendre 3 minutes)

Maintenant, demandons à un LLM de curer les données et d'appeler le LLM comme juge pour supprimer les lignes de données synthétiques moins désirables, puis nous enregistrons la sortie - cela peut prendre 3 minutes

Encore une fois, ARRÊTEZ le service vLLM pour économiser la VRAM !!! Retournez à l'onglet précédent, et faites CTRL+C 3 fois. Ou voyez Hackathon de données synthétiques AMD PyTorch Unsloth
Maintenant récupérez le notebook que nous allons exécuter à https://github.com/unslothai/notebooks/blob/main/nb/Synthetic_Data_Hackathon.ipynb:
Si vous obtenez des erreurs Out of Memory, arrêtez votre instance vLLM - voir Hackathon de données synthétiques AMD PyTorch Unsloth
Cliquez sur le bouton dossier à gauche et ouvrez "Synthetic_Data_Hackathon.ipynb" (double-cliquez)

Ensuite, exécutez tout !

Vous verrez au milieu du notebook :

Voir https://github.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data/blob/main/tutorial.ipynb pour plus de détails
🐬TUTORIEL 3 : GPT-OSS Création automatique de kernels par apprentissage par renforcement
Vous pouvez exécuter ceci en tant que notebook ou via un script Python !
Script Python : https://github.com/unslothai/notebooks/blob/main/python_scripts/gpt_oss_(20B)_GRPO_BF16.py
Notebook : https://github.com/unslothai/notebooks/blob/main/nb/gpt_oss_(20B)_GRPO_BF16.ipynb
Ensuite, comme dans le Tutoriel 2, ouvrez le fichier "Auto_Kernels_RL.ipynb", redémarrez et exécutez tout !

Si vous l'exécutez et faites défiler vers le bas, vous verrez le jeu 2048 être exécuté via des stratégies auto-générées par RL :

♦️TUTORIEL 4 : GPT-OSS Apprentissage par renforcement Jeu 2048
Vous pouvez exécuter ceci en tant que notebook ou via un script Python !
Script Python : https://github.com/unslothai/notebooks/blob/main/python_scripts/gpt_oss_(20B)_GRPO_BF16.py
Ensuite, comme pour le Tutoriel 3, ouvrez le fichier "Auto_Kernels_RL.ipynb", redémarrez et exécutez tout !

Lorsque vous faites défiler vers le bas, vous verrez l'algorithme RL créer automatiquement des stratégies pour gagner à 2048 !

🌻Commandes vLLM optimales sur AMD
Pour servir des modèles sur des GPU AMD, veuillez utiliser les commandes suivantes qui amélioreront les performances. Confirmez qu'aiter et flash-attention sont installés ou voyez Hackathon de données synthétiques AMD PyTorch Unsloth
Pour MI300X, MI325X et GPU Radeon :
Pour MI355X, faites ce qui suit :
🛠️Dépannage et FAQ
🆓Comment libérer la mémoire GPU AMD ?
Si vous êtes sur une image Docker (comme le hackathon) exécutez ce qui suit dans un nouveau Terminal rocm-smi -d 0 --showpids si sur une machine locale
Si sur une machine locale, faites simplement rocm-smi -d 0 --showpids et exécutez sudo kill -9 XXXX où XXXX est le PID répertorié pour ce processus spécifique qui utilise le plus de VRAM.

Pour l'image Docker comme dans le hackathon, après avoir exécuté la première cellule, vous pourriez voir quelque chose comme ci-dessous :

Puis recherchez le processus qui utilise la VRAM (comme vLLM), et tapez sudo kill -9 XXXX où XXXX est le PID répertorié dans la colonne de gauche comme ci-dessous :

Confirmez que toute la mémoire GPU est libérée via rocm-smi -d 0 --showpids Par exemple ci-dessous montre 0 d'utilisation mémoire :

Si d'autre part vous voyez ce qui suit, relancez la première cellule Docker pour tuer à nouveau le processus.

📝torch.OutOfMemoryError: HIP out of memory RuntimeError: Engine process failed to start.
Veuillez consulter Hackathon de données synthétiques AMD PyTorch Unsloth pour vérifier si votre GPU utilise la mémoire d'un autre processus et essayez de supprimer ce processus qui utilise la mémoire.
Essayez aussi amd-smi process --gpu 0 pour lister tous les processus et l'utilisation de la VRAM pour tous les processus utilisant le GPU :

▶️Aucune plateforme détectée pour vLLM, mise à niveau de vLLM, gpt-oss sur vLLM
Si vous exécutez vllm serve Unsloth/gpt-oss-20b vous pourriez utiliser une ancienne version de vLLM. python -c "import vllm; print(vllm.__version__)" pour obtenir la version de vLLM.
Dans le docker pré-construit du hackathon, vous obtiendrez 0.7.4 , qui malheureusement ne prend pas en charge les modèles plus récents comme GPT-OSS, cependant, d'autres modèles fonctionnent comme vllm serve Unsloth/Llama-3.3-70B-Instruct --port 8001 --max-model-len 48000 --gpu-memory-utilization 0.85

🧁Mise à jour de vLLM vers la dernière version sur AMD
GPT-OSS ne peut pas encore s'exécuter dans vLLM après compilation depuis la source - pour l'instant veuillez voir https://rocm.blogs.amd.com/ecosystems-and-partners/openai-day-0/README.html pour Docker exécutant gpt-oss - le hackathon ne peut malheureusement pas utiliser Docker dans Docker. Vous pourriez obtenir l'erreur :
Pour obtenir la dernière version de vLLM, veuillez voir https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html#install-specific-revisions, exécutez spécifiquement ce qui suit, après avoir fermé tous les processus utilisant le GPU AMD via Hackathon de données synthétiques AMD PyTorch Unsloth
L'exécution de ce qui précède produira (rappel : arrêtez d'abord tous les processus utilisant le GPU ! Voir Hackathon de données synthétiques AMD PyTorch Unsloth)


(Code réductible OPTIONNEL) Pour construire Flash Attention via (cela prendra 30 minutes à 1 heure) Donc ceci est optionnel si vous ne voulez pas attendre 30 minutes à 1 heure ! Je sauterais généralement ce processus. Développez cette cellule si vous souhaitez installer Flash Attention.
Vous verrez :

Pour surveiller la progression de Flash-Attention (qui peut être très longue), surveillez la progression [296/2206].

(NON OPTIONNEL) Puis construisez aiter AI Tensor Engine pour ROCm (cela prendra 5 minutes)
(NON OPTIONNEL) Ensuite, construisez vLLM :
Vous verrez ce qui suit (veuillez patienter 5 à 10 minutes !)


Confirmez que vLLM, torch ont été mis à jour via
qui devrait indiquer que vLLM est 0.11.0 ou supérieur, et torch DOIT être 2.8.0 à partir d'octobre 2025. Le type vllm pour confirmer que vLLM fonctionne comme prévu.

📖Exécution de unsloth/gpt-oss-20b dans vLLM
GPT-OSS ne peut pas encore s'exécuter dans vLLM après compilation depuis la source - pour l'instant veuillez voir https://rocm.blogs.amd.com/ecosystems-and-partners/openai-day-0/README.html pour Docker exécutant gpt-oss - le hackathon ne peut malheureusement pas utiliser Docker dans Docker. Vous pourriez obtenir l'erreur :
Après avoir mis à jour vLLM via Hackathon de données synthétiques AMD PyTorch Unsloth, vous pouvez exécuter gpt-oss-20b! Voir Hackathon de données synthétiques AMD PyTorch Unsloth pour de meilleures commandes optimales pour exécuter vllm sur GPU AMD (vous pourriez obtenir une inférence plus rapide !)
⁉️RuntimeError: User specified an unsupported autocast device_type 'hip'

Veuillez mettre à jour Unsloth ! Voir ci-dessous Hackathon de données synthétiques AMD PyTorch Unsloth
🐛NotImplementedError: Unsloth actuellement ok

🆕Mise à jour d'Unsloth
Tout d'abord, mettez à jour Unsloth et confirmez que tout fonctionne comme prévu - cliquez sur Terminal

Ensuite, exécutez ce qui suit dans le Terminal pour mettre à jour Unsloth - assurez-vous que la version est 2025.10.5 ou supérieure.
Vous devez également REDÉMARRER l'environnement d'exécution

⁉️terminate called after throwing an instance of 'std::logic_error' what()
Veuillez vérifier que vous êtes sur torch==2.8.0. Relancez ce qui suit :

❓System has not been booted, Failed to connect to bus
Vous pourriez voir ce qui suit :
Veuillez nous contacter afin que nous puissions redémarrer la machine !
🐛Binaire ROCm configuré introuvable - get_native_library()
Cela indique que bitsandbytes n'est pas installé correctement comme ci-dessous :
Veuillez consulter Hackathon de données synthétiques AMD PyTorch Unslothpour mettre à jour bitsandbytes et Unsloth !
❗NotImplementedError: Cannot copy out of meta tensor; no data!
Ceci signifie que vous êtes à court de mémoire. Voir Hackathon de données synthétiques AMD PyTorch Unsloth pour libérer la mémoire GPU.
💭Échec d'importation depuis vllm._C avec ModuleNotFoundError("No module named 'vllm._C'")
Veuillez réinstaller vLLM. Utilisez vllm_build comme dossier dans lequel vous clonez le dépôt et non vllm. Hackathon de données synthétiques AMD PyTorch Unsloth
😯ModuleNotFoundError: No module named 'vllm'
Veuillez ne pas rm -rf vllm_build le dossier que vous avez construit. Ou réinstallez vllm via Hackathon de données synthétiques AMD PyTorch Unsloth
📒ipykernel>6.30.1 casse les barres de progression.
Si vous voyez ce qui suit :
Pour l'instant ignorez-le - vous ne verrez simplement pas les barres de progression pour le téléchargement et l'upload des modèles.
🐛AssertionError: No MXFP4 MoE backend
Si vous exécutez gpt-oss-20b et voyez ceci pendant vLLM, veuillez réinstaller vLLM via Hackathon de données synthétiques AMD PyTorch Unsloth
🤕NotImplementedError: Could not run `aten::empty_strided`

Veuillez utiliser .to("cuda") et non .to("hip") Mettez aussi à jour Unsloth Hackathon de données synthétiques AMD PyTorch Unsloth
🐛NotImplementedError: Could not run 'aten::empty.memory_format'
Veuillez consulter Hackathon de données synthétiques AMD PyTorch Unslothpour mettre à jour bitsandbytes et Unsloth !
Mis à jour
Ce contenu vous a-t-il été utile ?

