NVIDIA DGX StationでのLLMファインチューニング（Unsloth）

Unslothのノートブックを使ったNVIDIA DGX Stationでのファインチューニングチュートリアル。

これでNVIDIA DGX Station上でUnslothを使ってローカルにLLMをトレーニングできるようになります Unsloth。DGX Stationは次の以上の容量を備えています 約200GBのVRAM と 700GBを超える統合GPU/CPUメモリ を備え、大規模AIワークロード向けに設計された緊密に接続されたシステムでGrace CPUとBlackwell GPUを組み合わせています。NVLink-C2Cで接続されることで、CPUとGPUは別個のままですが、従来のCPU-GPU構成よりもはるかに効率的に連携します。

このガイドでは、Unslothノートブックを使用してトレーニングします Qwen3.5 と gpt-oss-120b をDGX Stationで実行します。Unslothのテスト用に早期アクセスのDGX Stationハードウェアを提供してくれたNVIDIAに感謝します！

クイックスタート

必要なもの python3 がインストールされている必要があり、特に開発用ヘッダが必要です。私たちのシステムでは python 3.12 を使用しているため、3.12の開発用ヘッダをインストールします。

sudo apt update
sudo apt install python3.12-dev

次に、Unslothをインストールするために新しい仮想環境を作成します。 Unsloth。この方法で依存関係の競合を最小限に抑え、現在の作業環境の状態を保持します。

python3 -m venv .unsloth
source .unsloth/bin/activate
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130

まずは torch をインストールします cuda 13 インデックスからでないと、CPU版やアーキテクチャや機能が一致しないものが入る可能性があります！

ではUnslothをインストールできます：

pip install unsloth

次にインストールしましょう xformers と、必要に応じてソースからビルドする flash-attention の両方を。どちらのパッケージも構築に時間がかかるので、ビルド中はしばらくお待ちください。

pip install --no-deps --no-build-isolation xformers==0.0.33.post1
# オプション：flash-attn
# クローンしてビルド（B300向けにsm_100をターゲット） 
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention 
# B300 = sm_100、アーキテクチャを明示的に設定 
TORCH_CUDA_ARCH_LIST="10.0" MAX_JOBS=8 pip install . --no-build-isolation
cd ..

Qwen 3.5 MoEでは、高速化のために2つのカーネルパッケージをダウンロードする必要があります flash-linear-attention と causal-conv1d 。

pip install --no-build-isolation flash-linear-attention causal_conv1d==1.6.0

まだノートブッククライアントをお持ちでない場合は、インストールしてください。このガイドではJupyter Notebookを使用します：

cd ..
pip install notebook
pip install ipywidgets

最後に、実際に実行するUnslothノートブックをダウンロードします。LLMトレーニング用のノートブックとPythonスクリプトが250以上あります。

git clone https://github.com/unslothai/notebooks.git
cd notebooks

トレーニングチュートリアル

これでJupyter Notebookを起動して、ブラウザでUIにアクセスできます。

jupyter notebook

次に、コピーして貼り付ける localhost のサイト（トークン付き）をブラウザに貼り付けてください。次のような画面が表示されるはずです：

その nb フォルダに実行するノートブックがすべて入っています。

Qwen3.5-35B-A3B トレーニング

ファイルを開いてください nb/Qwen3_5_MoE.ipynb。インストールセクションは既に必要なものを事前にインストールしているのでスキップしてください。Unslothセクションに移動してそこからセルを実行し始めます。

ノートブックはモデルのセットアップ、データセット準備、トレーナーの構成を扱います。非常に大きなモデルをダウンロードし、数十億の重みを初期化し、さらに高速化のための最適化を行うため、各ステップには時間がかかることがあります。

デフォルト設定ではトレーニングは非常に高速です。DGX Stationはメモリが十分にあるため、デフォルトのトレーニングハイパーパラメータを変更してメモリと計算を本格的に試すことができます。トレーニングが終わったら、モデルを保存して後で使用したり、他の人と共有するためにHugging Face Hubへアップロードしたり、量子化フォーマットにエクスポートしたりできます。

gpt-oss-120b トレーニング

ファイルを開いてください nb/gpt-oss-(120B)_A100-Fine-tuning.ipynb。インストールセクションは既に前提条件をインストールしているのでスキップし、Unslothセクションに移動してください。そこからノートブックの実行を開始できます。ノートブックは約72GBのGPUメモリを使用し、実行に約10分かかります。