Feinabstimmung von LLMs auf NVIDIA DGX Station mit Unsloth

NVIDIA DGX Station-Tutorial zum Feinabstimmen mit Notebooks von Unsloth.

Sie können jetzt LLMs lokal auf Ihrer NVIDIA DGX Station mit trainieren Unsloth. Die DGX Station verfügt über mehr als ~200GB VRAM und über 700GB vereinheitlichten GPU/CPU-Speicher und kombiniert eine Grace-CPU und eine Blackwell-GPU in einem eng verbundenen System, das für groß angelegte KI-Workloads ausgelegt ist. Durch NVLink-C2C verbunden bleiben CPU und GPU getrennt, arbeiten jedoch weit effizienter zusammen als in einer klassischen CPU-GPU-Konfiguration.

In diesem Leitfaden verwenden wir Unsloth-Notebooks, um zu trainieren Qwen3.5 und gpt-oss-120b auf der DGX Station. Vielen Dank an NVIDIA für die Bereitstellung von frühem Zugang zur DGX Station-Hardware, um Unsloth darauf zu testen!

Schnellstart

Sie benötigen python3 installiert; insbesondere werden die Entwickler-Header benötigt. Auf unserem System haben wir python 3.12 deshalb werden wir die 3.12-Dev-Header installieren.

sudo apt update
sudo apt install python3.12-dev

Erstellen Sie dann eine frische virtuelle Umgebung, um zu installieren Unsloth. Auf diese Weise minimieren wir Abhängigkeitskonflikte und bewahren den Zustand der aktuellen Arbeitsumgebung.

python3 -m venv .unsloth
source .unsloth/bin/activate
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130

Installieren Sie zuerst torch aus dem cuda 13 Index, andernfalls könnten wir die CPU-Version oder eine Inkompatibilität in Architektur und Fähigkeiten erhalten!

Jetzt können wir Unsloth installieren:

pip install unsloth

Nun lassen Sie uns installieren xformers und optional bauen flash-attention aus dem Quellcode. Beide Pakete benötigen Zeit, also bitte haben Sie Geduld, während sie gebaut werden.

pip install --no-deps --no-build-isolation xformers==0.0.33.post1
# Optional flash-attn
# Klonen und bauen (zielt auf sm_100 für B300) 
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention 
# B300 = sm_100, Architektur explizit setzen 
TORCH_CUDA_ARCH_LIST="10.0" MAX_JOBS=8 pip install . --no-build-isolation
cd ..

Für Qwen 3.5 MoE möchten wir zwei Kernel-Pakete herunterladen flash-linear-attention und causal-conv1d um es schnell zu machen.

pip install --no-build-isolation flash-linear-attention causal_conv1d==1.6.0

Wenn Sie noch keinen Notebook-Client haben, installieren Sie einen. Für diesen Leitfaden verwenden wir Jupyter Notebook:

cd ..
pip install notebook
pip install ipywidgets

Schließlich laden wir die eigentlichen Unsloth-Notebooks zum Ausführen herunter. Es gibt mehr als 250 Notebooks für LLM-Training sowie Python-Skripte.

git clone https://github.com/unslothai/notebooks.git
cd notebooks

Trainingstutorials

Jetzt können wir Jupyter Notebook starten und in einem Browser zur Benutzeroberfläche navigieren.

jupyter notebook

Kopieren Sie die localhost Site mit Token-Parameter und fügen Sie sie in Ihren Browser ein. Sie sollten etwa Folgendes sehen:

Der nb Ordner enthält alle Notebooks zum Ausführen.

Qwen3.5-35B-A3B Training

Öffnen Sie die Datei nb/Qwen3_5_MoE.ipynb. Überspringen Sie den Installationsabschnitt, da wir bereits alles Notwendige vorher installiert haben. Navigieren Sie zum Unsloth-Abschnitt und beginnen Sie dort mit der Ausführung der Zellen.

Das Notebook behandelt Modellkonfiguration, Datensatzvorbereitung und Trainer-Konfiguration. Jeder Schritt kann einige Zeit in Anspruch nehmen, da wir ein sehr großes Modell herunterladen, Milliarden von Gewichten initialisieren und weiter optimieren, damit es schnell läuft.

Das Training ist mit den Standardeinstellungen sehr schnell. Auf der DGX Station gibt es ausreichend Speicher, sodass Sie mit den standardmäßigen Trainings-Hyperparametern spielen können, um Speicher und Rechenleistung wirklich auszureizen. Nach dem Training können Sie das Modell für später speichern, das Modell zum Teilen in das Hugging Face Hub hochladen oder in ein quantisiertes Format exportieren.

gpt-oss-120b Training

Öffnen Sie die Datei nb/gpt-oss-(120B)_A100-Fine-tuning.ipynb. Überspringen Sie den Installationsabschnitt, da wir die Voraussetzungen bereits installiert haben, und navigieren Sie zum Unsloth-Abschnitt. Wir können das Notebook von dort aus ausführen. Das Notebook wird etwa 72 GB GPU-Speicher verwenden und etwa 10 Minuten dauern.

Jede Zelle kann einige Zeit zum Ausführen benötigen, da wir das Modell herunterladen, die Gewichte initialisieren und weiter optimieren müssen, um ein schnelles Erlebnis zu gewährleisten. Das Notebook behandelt die Datenvorverarbeitung und die Einrichtung des Trainers. Sobald wir zur trainer.train() Zelle gelangen und diese ausführen, beginnt das Training.

Jetzt können wir das Modell nach Abschluss für die spätere Verwendung speichern, es ins Hugging Face Hub hochladen, um es mit der Welt zu teilen, oder es ins GGUF-Format exportieren.

Lesen Sie mehr über NVIDIAs DGX Station unter https://www.nvidia.com/en-us/products/workstations/dgx-station/

VorherigeOpenAI Codex NächsteMulti-GPU Training Unsloth

Zuletzt aktualisiert vor 6 Tagen

War das hilfreich?

hashtagSchnellstart

hashtagTrainingstutorials

hashtagQwen3.5-35B-A3B Training

hashtaggpt-oss-120b Training

Schnellstart

Trainingstutorials

Qwen3.5-35B-A3B Training

gpt-oss-120b Training