NVIDIA DGX Spark と Unsloth での LLM ファインチューニング

NVIDIA DGX Spark 上で OpenAI gpt-oss を使ってファインチューニングおよび強化学習（RL）を行うチュートリアル。

Unslothは最大 200Bのパラメータ を持つLLMのローカルファインチューニングをNVIDIA DGX™ Spark上で可能にします。128 GBのユニファイドメモリにより、次のような大規模モデルをトレーニングできます： gpt-oss-120b、およびDGX Spark上で直接推論を実行またはデプロイできます。

で示されているように OpenAI DevDay、gpt-oss-20bはDGX Spark上でRLとUnslothを用いて2048を自動で勝利するように訓練されました。DGX Spark上のDockerコンテナまたは仮想環境でUnslothを使用してトレーニングできます。

このチュートリアルでは、DGX SparkにUnslothをインストールした後、Unslothノートブックを使ってRLでgpt-oss-20bをトレーニングします。gpt-oss-120bはおおよそ 68GB のユニファイドメモリを使用します。

1,000ステップおよび4時間のRLトレーニングの後、gpt-ossモデルは2048で元のモデルを大きく上回り、さらに長いトレーニングで結果はさらに改善されます。

⚡ ステップバイステップチュートリアル

DGX Spark用Unsloth Dockerイメージから始める

まず、DGX Spark用Dockerfileを使用してDockerイメージをビルドします。Dockerfileはこちらで見つけることができます。または、DGX Sparkのターミナルで以下を実行できます：

sudo apt update && sudo apt install -y wget
wget -O Dockerfile "https://raw.githubusercontent.com/unslothai/notebooks/main/Dockerfile_DGX_Spark"

次に、保存したDockerfileを使ってトレーニング用Dockerイメージをビルドします：

docker build -f Dockerfile -t unsloth-dgx-spark .

DGX Spark用の完全なDockerfileを見るにはここをクリックできます

FROM nvcr.io/nvidia/pytorch:25.09-py3

# CUDAの環境変数を設定
ENV CUDA_HOME=/usr/local/cuda-13.0/
ENV CUDA_PATH=$CUDA_HOME
ENV PATH=$CUDA_HOME/bin:$PATH
ENV LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH
ENV C_INCLUDE_PATH=$CUDA_HOME/include:$C_INCLUDE_PATH
ENV CPLUS_INCLUDE_PATH=$CUDA_HOME/include:$CPLUS_INCLUDE_PATH

# 最新のBlackwellサポートのためにソースからtritonをインストール
RUN git clone https://github.com/triton-lang/triton.git && \
    cd triton && \
    git checkout c5d671f91d90f40900027382f98b17a3e04045f6 && \
    pip install -r python/requirements.txt && \
    pip install . && \
    cd ..

# Blackwellサポートのためにソースからxformersをインストール
RUN git clone --depth=1 https://github.com/facebookresearch/xformers --recursive && \
    cd xformers && \
    export TORCH_CUDA_ARCH_LIST="12.1" && \
    python setup.py install && \
    cd ..

# unslothおよびその他の依存関係をインストール
RUN pip install unsloth unsloth_zoo bitsandbytes==0.48.0 transformers==4.56.2 trl==0.22.2

# シェルを起動
CMD ["/bin/bash"]

コンテナを起動

GPUアクセスとボリュームマウントでトレーニングコンテナを起動：

docker run -it \
    --gpus=all \
    --net=host \
    --ipc=host \
    --ulimit memlock=-1 \
    --ulimit stack=67108864 \
    -v $(pwd):$(pwd) \
    -v $HOME/.cache/huggingface:/root/.cache/huggingface \
    -w $(pwd) \
    unsloth-dgx-spark

Jupyterを起動してノートブックを実行

コンテナ内でJupyterを起動し、必要なノートブックを実行します。Reinforcement Learning gpt-oss 20bを使用して2048に勝つノートブックを使用できますノートブックはこちら。実際、すべての Unslothノートブックは、インストールセルを削除するだけでDGX Sparkで動作します（含まれている 120b ノートブックも同様です）。

以下のコマンドはRLノートブックを実行するためにも使用できます。Jupyter Notebookを起動したら、“gpt_oss_20B_RL_2048_Game.ipynb”

NOTEBOOK_URL="https://raw.githubusercontent.com/unslothai/notebooks/refs/heads/main/nb/gpt_oss_(20B)_Reinforcement_Learning_2048_Game_DGX_Spark.ipynb"
wget -O "gpt_oss_20B_RL_2048_Game.ipynb" "$NOTEBOOK_URL"

jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root