Feinabstimmung von LLMs mit NVIDIA DGX Spark und Unsloth

Tutorial, wie man mit OpenAI gpt-oss auf NVIDIA DGX Spark feinabstimmt und Verstärkungslernen (RL) durchführt.

Unsloth ermöglicht lokales Fine-Tuning von LLMs mit bis zu 200B Parametern auf dem NVIDIA DGX™ Spark. Mit 128 GB Unified Memory können Sie massive Modelle wie gpt-oss-120btrainieren und Inferenz direkt auf dem DGX Spark ausführen oder bereitstellen.

Wie gezeigt auf OpenAI DevDay, wurde gpt-oss-20b mit RL und Unsloth auf DGX Spark trainiert, um 2048 automatisch zu gewinnen. Sie können mit Unsloth in einem Docker-Container oder einer virtuellen Umgebung auf DGX Spark trainieren.

In diesem Tutorial trainieren wir gpt-oss-20b mit RL unter Verwendung von Unsloth-Notebooks, nachdem Unsloth auf Ihrem DGX Spark installiert wurde. gpt-oss-120b wird etwa 68GB Unified Memory verwenden.

Nach 1.000 Schritten und 4 Stunden RL-Training übertrifft das gpt-oss-Modell das Original bei 2048 deutlich, und längeres Training würde die Ergebnisse weiter verbessern.

⚡ Schritt-für-Schritt-Anleitung

Beginnen Sie mit dem Unsloth-Docker-Image für DGX Spark

Zuerst bauen Sie das Docker-Image mit dem DGX Spark Dockerfile, das hier zu finden ist. Sie können außerdem Folgendes im Terminal auf dem DGX Spark ausführen:

sudo apt update && sudo apt install -y wget
wget -O Dockerfile "https://raw.githubusercontent.com/unslothai/notebooks/main/Dockerfile_DGX_Spark"

Dann bauen Sie das Trainings-Docker-Image mit dem gespeicherten Dockerfile:

docker build -f Dockerfile -t unsloth-dgx-spark .

Sie können auch hier klicken, um das vollständige DGX Spark Dockerfile zu sehen

FROM nvcr.io/nvidia/pytorch:25.09-py3

# Setzen Sie CUDA-Umgebungsvariablen
ENV CUDA_HOME=/usr/local/cuda-13.0/
ENV CUDA_PATH=$CUDA_HOME
ENV PATH=$CUDA_HOME/bin:$PATH
ENV LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH
ENV C_INCLUDE_PATH=$CUDA_HOME/include:$C_INCLUDE_PATH
ENV CPLUS_INCLUDE_PATH=$CUDA_HOME/include:$CPLUS_INCLUDE_PATH

# Installieren Sie triton aus dem Quellcode für aktuelle Blackwell-Unterstützung
RUN git clone https://github.com/triton-lang/triton.git && \
    cd triton && \
    git checkout c5d671f91d90f40900027382f98b17a3e04045f6 && \
    pip install -r python/requirements.txt && \
    pip install . && \
    GPU_ARCHS="$ARCH" python3 setup.py install

# Installieren Sie xformers aus dem Quellcode für Blackwell-Unterstützung
RUN git clone --depth=1 https://github.com/facebookresearch/xformers --recursive && \
    cd xformers && \
    export TORCH_CUDA_ARCH_LIST="12.1" && \
    python setup.py install && \
    GPU_ARCHS="$ARCH" python3 setup.py install

# Installieren Sie unsloth und andere Abhängigkeiten
RUN pip install unsloth unsloth_zoo bitsandbytes==0.48.0 transformers==4.56.2 trl==0.22.2

# Starten Sie die Shell
CMD ["/bin/bash"]

Container starten

Starten Sie den Trainingscontainer mit GPU-Zugriff und Volume-Mounts:

docker run -it \
    --gpus=all \
    --net=host \
    --ipc=host \
    --ulimit memlock=-1 \
    --ulimit stack=67108864 \
    -v $(pwd):$(pwd) \
    -v $HOME/.cache/huggingface:/root/.cache/huggingface \
    -w $(pwd) \
    unsloth-dgx-spark

Jupyter starten und Notebooks ausführen

Starten Sie innerhalb des Containers Jupyter und führen Sie das erforderliche Notebook aus. Sie können das Reinforcement-Learning gpt-oss 20b Notebook verwenden, um 2048 zu gewinnen Notebook hier. Tatsächlich funktionieren alle Unsloth-Notebooks im DGX Spark, einschließlich des 120b Notebooks! Entfernen Sie einfach die Installationszellen.

Die folgenden Befehle können ebenfalls verwendet werden, um das RL-Notebook auszuführen. Nachdem Jupyter Notebook gestartet wurde, öffnen Sie das „gpt_oss_20B_RL_2048_Game.ipynb”

NOTEBOOK_URL="https://raw.githubusercontent.com/unslothai/notebooks/refs/heads/main/nb/gpt_oss_(20B)_Reinforcement_Learning_2048_Game_DGX_Spark.ipynb"
wget -O "gpt_oss_20B_RL_2048_Game.ipynb" "$NOTEBOOK_URL"

jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root

Vergessen Sie nicht, Unsloth ermöglicht Ihnen auch, Ihre Modelle zu speichern und auszuführen nach dem Fine-Tuning, sodass Sie sie anschließend lokal direkt auf Ihrem DGX Spark bereitstellen können.

Vielen Dank an Lakshmi Ramesh und Barath Anandan von NVIDIA für die Unterstützung beim DGX Spark-Start von Unsloth und beim Erstellen des Docker-Images.

Unified Memory-Verwendung

gpt-oss-120b QLoRA 4-Bit Fine-Tuning wird etwa 68GB Unified Memory verwenden. Wie Ihre Unified Memory-Auslastung aussehen sollte vorher (links) und nach (rechts) Training:

Und das war's! Viel Spaß beim Trainieren und Ausführen von LLMs komplett lokal auf Ihrem NVIDIA DGX Spark!

Video-Tutorials

Dank an Tim von AnythingLLM für die Bereitstellung eines großartigen Fine-Tuning-Tutorials mit Unsloth auf DGX Spark:

VorherigeUnsloth Docker Guide NächsteBlackwell, RTX 50 and Unsloth

Zuletzt aktualisiert vor 2 Monaten

War das hilfreich?

hashtag⚡ Schritt-für-Schritt-Anleitung

hashtagUnified Memory-Verwendung

hashtagVideo-Tutorials

⚡ Schritt-für-Schritt-Anleitung

Unified Memory-Verwendung

Video-Tutorials