square-up-rightUnsloth AMD PyTorch Synthetic Data Hackathon

Tipps & Tricks, Fehlerbehebung und Anleitung zum Ausführen von Unsloth auf einer AMD-GPU.

Sobald Sie Zugriff auf eine MI300-Maschine haben, sehen Sie eine Jupyter-Notebook-Oberfläche:

Aktualisieren Sie zuerst Unsloth und bestätigen Sie, dass alles wie erwartet funktioniert - klicken Sie auf Terminal

Führen Sie dann Folgendes im Terminal aus, um Unsloth zu aktualisieren - stellen Sie sicher, dass die Version 2025.10.5 oder höher ist.

Um ein neues Notebook oder Terminal zu erstellen, klicken Sie auf die PLUS-Schaltfläche

circle-check

🦋TUTORIAL 1: Bestätigen, dass Unsloth funktioniert

Bestätigen Sie, dass unser einfaches Llama 3.2 1B / 3B Konversations-Notebook in einem neuen Terminal.

Sie sollten Folgendes sehen (es dauert etwa 2 Minuten). Wenn etwas fehlschlägt, versuchen Sie zuerst, Unsloth über

🦥TUTORIAL 2: Ausführen der synthetischen Datengenerierung

circle-check

Versuchen wir jetzt das Beispiel unter https://github.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Dataarrow-up-right und auch https://www.amd.com/en/developer/resources/technical-articles/2025/10x-model-fine-tuning-using-synthetic-data-with-unsloth.htmlarrow-up-right

Erstellen Sie zuerst ein neues Terminal nochmals - die PLUS-Schaltfläche ermöglicht ein neues Terminal.

Starten Sie vLLM, um Llama 3.3 70B Instruct in einem neuen Terminal (verwenden Sie die PLUS-Schaltfläche für ein neues Terminal)

Sie werden sehen:

Warten Sie, bis Sie INFO: Application startup complete. sehen, und klicken Sie dann auf die PLUS-Schaltfläche, um einen neuen Tab zu öffnen

Installieren Sie synthetic-data-kit https://github.com/meta-llama/synthetic-data-kitarrow-up-right in einem neuen Terminal Fenster.

Holen Sie config.yaml entweder von https://raw.githubusercontent.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data/refs/heads/main/config.yamlarrow-up-rightoder unten:

file-download
7KB

Prüfen Sie, ob das synthetic data kit funktioniert hat. Wenn Sie Fehler sehen, bestätigen Sie, dass vLLM in der ersten Zelle ausgeführt wird.

Holen Sie nun einige Dateien, die wir für die Verarbeitung verwenden werden:

Lassen Sie uns jetzt die Daten einlesen und verarbeiten:

Erstellen Sie nun entweder Q&A (Frage- & Antwortpaare) oder CoT (Chain-of-Thought)-Paare (das kann 3 Minuten dauern)

Bitten wir nun ein LLM, die Daten zu kuratieren und rufen das LLM als Richter auf, um weniger wünschenswerte synthetische Datensätze zu entfernen, und speichern dann die Ausgabe - es kann 3 Minuten dauern

Noch einmal, FAHREN SIE den vLLM-Dienst herunter, um VRAM zu sparen!!! Gehen Sie zum vorherigen Tab und drücken Sie CTRL+C 3 Mal. Oder sehen Sie Unsloth AMD PyTorch Synthetic Data Hackathon

Holen Sie sich jetzt das Notebook, das wir unter https://github.com/unslothai/notebooks/blob/main/nb/Synthetic_Data_Hackathon.ipynbarrow-up-right:

circle-info

wget "https://github.com/unslothai/notebooks/raw/refs/heads/main/nb/Synthetic_Data_Hackathon.ipynb" -O "Synthetic_Data_Hackathon.ipynb" Unsloth AMD PyTorch Synthetic Data Hackathon

Wenn Sie Out-of-Memory-Fehler erhalten, fahren Sie Ihre vLLM-Instanz herunter - siehe

Klicken Sie auf die linke Ordner-Schaltfläche und öffnen Sie "Synthetic_Data_Hackathon.ipynb" (Doppelklick)

Führen Sie dann alle Zellen aus!

Siehe Sie sehen in der Mitte des Notebooks:arrow-up-right https://github.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data/blob/main/tutorial.ipynb

🐬für weitere Details

TUTORIAL 3: GPT-OSS Reinforcement Learning Auto Kernel Erstellung

Sie können dies als Notebook oder als Python-Skript ausführen! Python-Skript:arrow-up-right

https://github.com/unslothai/notebooks/blob/main/python_scripts/gpt_oss_(20B)_GRPO_BF16.py Notebook:arrow-up-right

wget "https://raw.githubusercontent.com/unslothai/notebooks/refs/heads/main/nb/gpt_oss_(20B)_GRPO_BF16.ipynb" -O "Auto_Kernels_RL.ipynb"

Öffnen Sie dann wie in Tutorial 2 die Datei "Auto_Kernels_RL.ipynb" und starten Sie neu und führen Sie alles aus!

♦️Wenn Sie es ausführen und nach unten scrollen, sehen Sie das 2048-Spiel, das mittels automatisch generierter Strategien durch RL ausgeführt wird:

TUTORIAL 3: GPT-OSS Reinforcement Learning Auto Kernel Erstellung

Sie können dies als Notebook oder als Python-Skript ausführen! Python-Skript:arrow-up-right

https://github.com/unslothai/notebooks/blob/main/python_scripts/gpt_oss_(20B)_GRPO_BF16.py https://github.com/unslothai/notebooks/blob/main/nb/gpt_oss_(20B)_Reinforcement_Learning_2048_Game_BF16.ipynbarrow-up-right

wget "https://github.com/unslothai/notebooks/raw/refs/heads/main/nb/gpt_oss_(20B)_Reinforcement_Learning_2048_Game_BF16.ipynb" -O "RL_2048_Game.ipynb"

Öffnen Sie dann wie in Tutorial 3 die Datei "Auto_Kernels_RL.ipynb" und starten Sie neu und führen Sie alles aus!

🌻Wenn Sie nach unten scrollen, sehen Sie, wie der RL-Algorithmus automatisch Strategien erstellt, um 2048 zu gewinnen!

Optimale vLLM-Befehle auf AMD Unsloth AMD PyTorch Synthetic Data Hackathon

Um Modelle auf AMD-GPUs bereitzustellen, verwenden Sie bitte die folgenden Befehle, die die Leistung steigern. Bestätigen Sie, dass aiter und flash-attention installiert sind, oder siehe

--compilation-config '{"full_cuda_graph": true}'

🛠️--block-size 64

🆓Fehlerbehebung und FAQs

Wie kann ich AMD-GPU-Speicher freigeben? Terminal Wenn Sie sich in einem Docker-Image (wie beim Hackathon) befinden, führen Sie das Folgende in einem neuen rocm-smi -d 0 --showpids

done | sort -n Wenn Sie sich in einem Docker-Image (wie beim Hackathon) befinden, führen Sie das Folgende in einem neuen Wenn Sie auf einer lokalen Maschine sind, tun Sie einfach und führen Sie aus sudo kill -9 XXXX wobei XXXX

die PID ist, die für den spezifischen Prozess aufgeführt ist, der den meisten VRAM verwendet.

Für das Docker-Image wie beim Hackathon sehen Sie nach Ausführen der ersten Zelle möglicherweise etwas wie unten: und führen Sie aus sudo kill -9 XXXX wobei Suchen Sie dann nach dem Prozess, der den VRAM verwendet (z. B. vLLM), und geben Sie ein

die PID wird in der linken Spalte wie unten aufgeführt: Wenn Sie sich in einem Docker-Image (wie beim Hackathon) befinden, führen Sie das Folgende in einem neuen Bestätigen Sie, dass der gesamte GPU-Speicher über

freigegeben ist. Zum Beispiel zeigt das Folgende 0 Speichernutzung:

📝Wenn Sie dagegen Folgendes sehen, führen Sie die erste Docker-Zelle erneut aus, um den Prozess erneut zu beenden.

Bitte siehe Unsloth AMD PyTorch Synthetic Data Hackathon torch.OutOfMemoryError: HIP out of memory RuntimeError: Engine process failed to start.

um zu prüfen, ob Ihre GPU Speicher von einem anderen Prozess verwendet, und versuchen Sie, diesen Prozess zu beenden, der Speicher verwendet. Versuchen Sie auch amd-smi process --gpu 0

▶️um alle Prozesse und die VRAM-Nutzung aller Prozesse aufzulisten, die die GPU verwenden:

Keine Plattform für vLLM erkannt, vLLM aktualisieren, gpt-oss auf vLLM Wenn Sie ausführen vllm serve Unsloth/gpt-oss-20b verwenden Sie möglicherweise eine ältere vLLM-Version. python -c "import vllm; print(vllm.__version__)"

um die vLLM-Version zu erhalten. 0.7.4 Im vorgefertigten Hackathon-Docker erhalten Sie vllm serve Unsloth/Llama-3.3-70B-Instruct --port 8001 --max-model-len 48000 --gpu-memory-utilization 0.85

🧁, das leider neuere Modelle wie GPT-OSS nicht unterstützt, jedoch funktionieren andere Modelle wie

circle-exclamation

(EngineCore_DP0 pid=44662) Process EngineCore_DP0: Um die neueste vLLM-Version zu erhalten, siehe bittearrow-up-righthttps://docs.vllm.ai/en/latest/getting_started/installation/gpu.html#install-specific-revisions Unsloth AMD PyTorch Synthetic Data Hackathon

pip install git+https://github.com/triton-lang/triton.git@05b2c186c1b6c9a08375389d5efe9cb4c401c075#subdirectory=python/triton_kernels Unsloth AMD PyTorch Synthetic Data Hackathon)

chevron-rightDie Ausführung des Vorherigen wird dies bewirken (Erinnerung: Fahren Sie zuerst alle Prozesse herunter, die die GPU verwenden! Siehe (OPTIONAL ausklappbarer Code) Um Flash Attention zu bauenüber (dies wird 30 Minuten bis 1 Stunde dauern ) Dies ist also optional, wenn Sie nicht 30 Minuten bis 1 Stunde warten möchten! Ich würde diesen Prozess im Allgemeinen überspringen.hashtag

Sie werden sehen:

cd ..

Um den Fortschritt von Flash-Attention zu überwachen (was sehr lange dauern kann), achten Sie auf den [296/2206]-Fortschritt. (NICHT OPTIONAL) Bauen Sie dann aiterarrow-up-right AI Tensor Engine für ROCm

Um den Fortschritt von Flash-Attention zu überwachen (was sehr lange dauern kann), achten Sie auf den [296/2206]-Fortschritt. python3 setup.py develop

export PYTORCH_ROCM_ARCH="$(rocminfo | grep -m1 -oE 'gfx[0-9]+[a-z]*')"Sie werden Folgendes sehen ()

bitte warten Sie 5 bis 10 Minuten!

vllm python -c "import vllm, torch, unsloth; print(vllm.__version__); print(torch.__version__); print(unsloth.__version__);" was anzeigen sollte, dass vLLM 0.11.0 oder höher ist, und torch MUSS ab Oktober 2025 Version 2.8.0 sein. Der Befehl

📖2.8.0+rocm6.4

circle-exclamation

Ausführen von unsloth/gpt-oss-20b in vLLM Unsloth AMD PyTorch Synthetic Data HackathonNach dem Aktualisieren von vLLM via gpt-oss-20barrow-up-rightkönnen Sie ausführen Unsloth AMD PyTorch Synthetic Data Hackathon ! Siehe

⁉️--gpu-memory-utilization 0.85

RuntimeError: User specified an unsupported autocast device_type 'hip' Bitte aktualisieren Sie Unsloth! Unsloth AMD PyTorch Synthetic Data Hackathon

🐛Siehe unten

🆕NotImplementedError: Unsloth derzeit ok

Aktualisieren Sie zuerst Unsloth und bestätigen Sie, dass alles wie erwartet funktioniert - klicken Sie auf Terminal

Führen Sie dann Folgendes im Terminal Unsloth aktualisieren um Unsloth zu aktualisieren -

stellen Sie sicher, dass die Version 2025.10.5 oder höher ist.

⁉️Sie müssen auch die Laufzeit NEU STARTEN

terminate called after throwing an instance of 'std::logic_error' what() Bitte verifizieren Sie, dass Sie auftorch==2.8.0

sind. Führen Sie erneut aus:

System wurde nicht gebootet, Verbindung zum Bus fehlgeschlagen

Fehler bei der Kommunikation mit dem Init-Daemon.

🐛Bitte kontaktieren Sie uns, damit wir die Maschine neu starten können!

Konfiguriertes ROCm-Binary nicht gefunden - get_native_library()

Bitte siehe Unsloth AMD PyTorch Synthetic Data HackathonRuntimeError: Configured ROCm binary not found at /usr/local/lib/python3.12/dist-packages/bitsandbytes/libbitsandbytes_rocm64.so

um bitsandbytes und Unsloth zu aktualisieren!

NotImplementedError: Cannot copy out of meta tensor; no data! Unsloth AMD PyTorch Synthetic Data Hackathon Dies bedeutet, dass Sie keinen Speicher mehr haben. Siehe

💭Fehler beim Importieren von vllm._C mit ModuleNotFoundError("No module named 'vllm._C'")

Bitte installieren Sie vLLM neu. Verwenden Sie vllm_build als Ordner, in den Sie per git klonen, und nicht python -c "import vllm, torch, unsloth; print(vllm.__version__); print(torch.__version__); print(unsloth.__version__);". Unsloth AMD PyTorch Synthetic Data Hackathon

😯ModuleNotFoundError: No module named 'vllm'

Bitte führen Sie nicht aus rm -rf vllm_build den Ordner, den Sie gebaut haben. Oder installieren Sie vllm neu via Unsloth AMD PyTorch Synthetic Data Hackathon

📒ipykernel>6.30.1 bricht Fortschrittsbalken.

Wenn Sie Folgendes sehen:

Ignorieren Sie es vorerst - Sie werden nur keine Fortschrittsbalken beim Herunterladen und Hochladen von Modellen sehen.

🐛AssertionError: No MXFP4 MoE backend

Wenn Sie gpt-oss-20b ausführen und dies während vLLM sehen, installieren Sie vLLM bitte erneut via Unsloth AMD PyTorch Synthetic Data Hackathon

🤕NotImplementedError: Could not run `aten::empty_strided`

Bitte verwenden Sie .to("cuda") und nicht .to("hip") Aktualisieren Sie außerdem Unsloth Unsloth AMD PyTorch Synthetic Data Hackathon

🐛NotImplementedError: Could not run 'aten::empty.memory_format'

Bitte siehe Unsloth AMD PyTorch Synthetic Data HackathonRuntimeError: Configured ROCm binary not found at /usr/local/lib/python3.12/dist-packages/bitsandbytes/libbitsandbytes_rocm64.so

Zuletzt aktualisiert

War das hilfreich?