For the complete documentation index, see llms.txt. This page is also available as Markdown.

🧩NVIDIA Nemotron 3 Nano Omni - ローカル実行方法

Nemotron-3-Nano-Omni-30B-A3Bをローカルデバイスで実行・ファインチューニングしましょう!

NVIDIA Nemotron-3-Nano-Omni-30B-A3B は、以下を含むマルチモーダルなエージェント型ワークロード向けに構築された、オープンな300億パラメータ・30億アクティブのハイブリッド推論MoEモデルです オーディオ, ビデオ、入力としてテキスト、画像、ドキュメントを受け取り、出力はテキストです。このモデルは 25GB RAM 4ビットでは25GB、8ビットでは36GBです。

256Kの 256Kコンテキストを備えた Nemotron 3 Nano Omni は、 最強のオムニ モデルであり、同サイズ帯で最高効率のオープンマルチモーダルモデルです。私たちは初日対応のために NVIDIA と協力しました! GGUF: Nemotron-3-Nano-Omni-30B-A3B-Reasoning

⚙️ 使用ガイド

NVIDIA は推論に次の設定を推奨しています:

思考モード:

  • temperature = 0.6

  • top_p = 0.95

Instruct モード:

  • temperature = 0.2

Nemotron-3-Nano-Omni を実行する

ユースケースに応じて、 異なる設定を使う必要があります。一部の GGUF は、モデルアーキテクチャ(たとえば gpt-oss)の次元が128で割り切れないため、一部をより低いビット数に量子化できず、結果としてサイズが似通うことがあります。 GGUF: Nemotron-3-Nano-Omni-30B-A3B-Reasoning

このモデルの4ビット版には約25GBのRAMが必要です。8ビット版には36GBが必要です。このガイドでは、 UD-Q4-K-XL を使用します。これはサイズと精度のバランスが良好です。

Unsloth Studio で実行するllama.cpp で実行する

🦥 Unsloth Studio ガイド

このチュートリアルでは、 Unsloth Studioを使用します。これは LLM の実行と学習のための新しい Web UI です。Unsloth Studio では、モデルを実行し、 オーディオ画像とテキストをローカルで入力でき、 Mac、Windows、Linux で利用でき、次のことが可能です:

1

Unsloth をインストール

MacOS、Linux、WSL:

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex
2

Unsloth Studio をセットアップ(一度だけ)

セットアップでは、Node.js(nvm 経由)の自動インストール、フロントエンドのビルド、すべての Python 依存関係のインストール、および CUDA 対応の llama.cpp のビルドが行われます。

WSL ユーザー: 次のインストールのために sudo ビルド依存関係をインストールするためのパスワード入力を求められます(cmake, git, libcurl4-openssl-dev).

3

Unsloth を起動

MacOS、Linux、WSL:

source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888

Windows PowerShell:

& .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888

次に、 http://127.0.0.1:8888 をブラウザで開きます。

4

NVIDIA-Nemotron-3-Nano-30B-A3B-Omni を検索してダウンロードする

初回起動時には、アカウントを保護するためのパスワードを作成し、後でもう一度サインインする必要があります。次に、 Studio Chat タブに移動し、検索バーで Nemotron-3-Nano-Omni を検索して、希望するモデルと量子化版をダウンロードしてください。

5

Nemotron-3-Nano-30B-A3B-Omni を実行する

Unsloth Studio を使用する場合、推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細については、 Unsloth Studio 推論ガイド.

🦙 Llama.cpp チュートリアル:

llama.cpp で実行する手順です(ほとんどのデバイスに収まるよう、ここでは4ビットを使用します):

1

最新の llama.cppこちらの GitHub から入手してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを行いたい場合に使います。 Apple Mac / Metal デバイスの場合-DGGML_CUDA=OFF を設定し、その後は通常どおり続行してください。Metal サポートはデフォルトで有効です。

2

まずは画像を1枚取得しましょう! 画像をアップロードすることもできます。ここでは https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.pngを使います。これは、Unsloth でどのようにファインチューニングが行われるかを示した小さなロゴです:

次に、2枚目の画像を https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg

3

以下のコードでモデルをダウンロードします(事前に pip install huggingface_hubをインストールした後)。Q4_K_M や、 UD-Q4_K_XL のような他の量子化版を選べます。サイズと精度のバランスのため、少なくとも2ビットの動的量子化 UD-Q2_K_XL の使用を推奨します。ダウンロードが止まる場合は、こちらを参照してください: Hugging Face Hub、XETデバッグ

4

次に、会話モードでモデルを実行します:

5

すると、以下のように表示されます:

6

次に、 /image を使って両方の画像を読み込み、「これは何の画像ですか」と尋ねます:

7

そしてナマケモノの画像については:

Llama-server の提供とデプロイ

Nemotron 3 Nano Omni をローカルにデプロイするには、 llama-serverを使用します。たとえば tmuxのように新しいターミナルで、モデルをデプロイします:

モデルを手動でダウンロードした場合は、こちらを使用してください:

次に、新しいターミナルで、 pip install openai:

すると、以下のようなものが表示されます:

OpenAI 互換サーバー経由の画像入力

ここでは picture.png を使います。これは、先ほどのナマケモノ画像です NVIDIA Nemotron 3 Nano Omni

すると、以下のようなものが表示されます:

🦥 Nemotron 3 Nano Omni のファインチューニング

Unsloth は Nemotron モデルファミリー全体をサポートしています。Nemotron 3 Nano Omni はマルチモーダルなエージェント用データセットに有用です。Unsloth を通じて、音声、ビジョン、またはテキストで学習できます。 動画入力 のファインチューニングは現在サポートされていません。

テキストのみやノートブックの場合は、既存の Nemotron 3 Nano のファインチューニング手順から始められます。マルチモーダルアダプターでは、データセットにエージェントが実際に必要とするモダリティが含まれていることを確認してください:

  • コンピュータ操作: スクリーンショット、UI 状態、カーソル/コンテキスト、期待される次のアクション

  • ドキュメント理解: PDF、スクリーンショット、チャート、表、構造化抽出ターゲット

  • 音声理解: 音声クリップ、サンプリングされたフレーム、要約、タイムスタンプ、イベント、追跡質問

  • エージェントループ: 観察 → 推論 → 行動 → 検証の例

Omni では、テキストのみの VRAM 数値をそのまま再利用しないでください。マルチモーダルエンコーダー、プロジェクタ重み、画像トークン、音声チャンク、長いコンテキストはいずれもメモリ使用量を増やします。まずは短いコンテキストと小さいバッチサイズから始めて、その後スケールアップしてください。

ベンチマーク

Nemotron 3 Nano Omni は、そのサイズで最強のオムニモデルです。また、先進的な精度を備えた最高効率のオープンマルチモーダルモデルでもあります。このモデルは、あらゆるベンチマークで Qwen3-Omni-30B-A3B を上回ります。

最終更新

役に立ちましたか?