microchip-aiNVIDIA DGX StationでのLLMファインチューニング(Unsloth)

Unslothのノートブックを使ったNVIDIA DGX Stationでのファインチューニングチュートリアル。

これでNVIDIA DGX Station上でUnslothを使ってローカルにLLMをトレーニングできるようになります Unslotharrow-up-right。DGX Stationは次の以上の容量を備えています 約200GBのVRAM700GBを超える統合GPU/CPUメモリ を備え、大規模AIワークロード向けに設計された緊密に接続されたシステムでGrace CPUとBlackwell GPUを組み合わせています。NVLink-C2Cで接続されることで、CPUとGPUは別個のままですが、従来のCPU-GPU構成よりもはるかに効率的に連携します。

このガイドでは、Unslothノートブックを使用してトレーニングします Qwen3.5gpt-oss-120b をDGX Stationで実行します。Unslothのテスト用に早期アクセスのDGX Stationハードウェアを提供してくれたNVIDIAに感謝します!

クイックスタート

必要なもの python3 がインストールされている必要があり、特に開発用ヘッダが必要です。私たちのシステムでは python 3.12 を使用しているため、3.12の開発用ヘッダをインストールします。

sudo apt update
sudo apt install python3.12-dev

次に、Unslothをインストールするために新しい仮想環境を作成します。 Unslotharrow-up-right。この方法で依存関係の競合を最小限に抑え、現在の作業環境の状態を保持します。

python3 -m venv .unsloth
source .unsloth/bin/activate
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130
circle-exclamation

ではUnslothをインストールできます:

次にインストールしましょう xformers と、必要に応じてソースからビルドする flash-attention の両方を。どちらのパッケージも構築に時間がかかるので、ビルド中はしばらくお待ちください。

Qwen 3.5 MoEでは、高速化のために2つのカーネルパッケージをダウンロードする必要があります flash-linear-attentioncausal-conv1d

まだノートブッククライアントをお持ちでない場合は、インストールしてください。このガイドではJupyter Notebookを使用します:

最後に、実際に実行するUnslothノートブックをダウンロードします。LLMトレーニング用のノートブックとPythonスクリプトが250以上あります。

トレーニングチュートリアル

これでJupyter Notebookを起動して、ブラウザでUIにアクセスできます。

次に、コピーして貼り付ける localhost のサイト(トークン付き)をブラウザに貼り付けてください。次のような画面が表示されるはずです:

その nb フォルダに実行するノートブックがすべて入っています。

Qwen3.5-35B-A3B トレーニング

ファイルを開いてください nb/Qwen3_5_MoE.ipynb。インストールセクションは既に必要なものを事前にインストールしているのでスキップしてください。Unslothセクションに移動してそこからセルを実行し始めます。

ノートブックはモデルのセットアップ、データセット準備、トレーナーの構成を扱います。非常に大きなモデルをダウンロードし、数十億の重みを初期化し、さらに高速化のための最適化を行うため、各ステップには時間がかかることがあります。

デフォルト設定ではトレーニングは非常に高速です。DGX Stationはメモリが十分にあるため、デフォルトのトレーニングハイパーパラメータを変更してメモリと計算を本格的に試すことができます。トレーニングが終わったら、モデルを保存して後で使用したり、他の人と共有するためにHugging Face Hubへアップロードしたり、量子化フォーマットにエクスポートしたりできます。

gpt-oss-120b トレーニング

ファイルを開いてください nb/gpt-oss-(120B)_A100-Fine-tuning.ipynb。インストールセクションは既に前提条件をインストールしているのでスキップし、Unslothセクションに移動してください。そこからノートブックの実行を開始できます。ノートブックは約72GBのGPUメモリを使用し、実行に約10分かかります。

モデルのダウンロード、重みの初期化、および高速化のための最適化が必要なため、各セルの実行には時間がかかる場合があります。ノートブックはデータセットの前処理とトレーナーの設定を順に説明します。次に trainer.train() セルに到達して実行するとトレーニングが開始されます。

完了したら、後で使用するためにモデルを保存したり、Hugging Face Hubに公開して世界と共有したり、GGUF形式にエクスポートしたりできます。

NVIDIAのDGX Stationについて詳しくは次をご覧ください https://www.nvidia.com/en-us/products/workstations/dgx-station/arrow-up-right

最終更新

役に立ちましたか?