# DockerでローカルLLMを実行する方法: ステップバイステップガイド

これで、Unsloth を含む任意のモデルを実行できるようになりました。 [ダイナミックGGUF](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md)単一のコード行で、Mac、Windows、または Linux 上で実行できます、または **まったくコードなしで** モデルのデプロイを簡素化するために Docker と協力しており、Unsloth は現在 Docker 上のほとんどの GGUF モデルを動かしています。

始める前に、必ずご確認ください： [ハードウェア要件](#hardware-info--performance) および [当社のヒント](#hardware-info--performance) デバイスで LLM を実行する際のパフォーマンス最適化のための。

<a href="/pages/b00c9977bf9de6379716fbcd59dde91df9f3e609#method-1-docker-terminal" class="button primary">Docker ターミナル チュートリアル</a><a href="#method-2-docker-desktop-no-code" class="button primary">Docker ノーコード チュートリアル</a>

始めるには、OpenAI を実行します [gpt-oss](/docs/jp/moderu/gpt-oss-how-to-run-and-fine-tune.md) 単一のコマンドで：

```bash
docker model run ai/gpt-oss:20B
```

または特定の [Unsloth モデル](/docs/jp/meru/unsloth-model-catalog.md) / Hugging Face からの量子化を実行するには：

```bash
docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16
```

{% hint style="success" %}
モデルを実行するには Docker Desktop は必要なく、Docker CE で十分です。
{% endhint %}

#### **なぜ Unsloth + Docker なのか？**

Google Gemma のようなモデルラボと協力してモデルのバグ修正や精度向上に取り組んでいます。私たちの Dynamic GGUF は他の量子化手法を一貫して上回り、高精度で効率的な推論を提供します。

Docker を使用すると、セットアップ不要で即座にモデルを実行できます。Docker は [Docker Model Runner](https://github.com/docker/model-runner) （DMR）を使用しており、依存関係の問題なしにコンテナのように簡単に LLM を実行できます。DMR は Unsloth モデルと `llama.cpp` 内部で利用して、高速で効率的、かつ最新の推論を実現します。

## :gear: ハードウェア情報 + パフォーマンス

最良のパフォーマンスを得るには、VRAM と RAM の合計がダウンロードする量子化モデルのサイズ以上であることを目指してください。足りない場合でもモデルは動作しますが、著しく遅くなります。

モデルを保存するためにデバイスに十分なディスク容量があることを確認してください。モデルがギリギリでしかメモリに収まらない場合、モデルサイズにより異なりますが、約 〜5 トークン/秒 程度を期待できます。

余分な RAM/VRAM があると推論速度が向上し、特に追加の VRAM が最大のパフォーマンス向上をもたらします（ただしモデル全体が収まる場合に限ります）。

{% hint style="info" %}
**例：** gpt-oss-20b (F16) をダウンロードしており、モデルが 13.8 GB の場合は、ディスク容量と RAM + VRAM が 13.8 GB を超えていることを確認してください。
{% endhint %}

**量子化の推奨：**

* 30B 未満のパラメータのモデルには、少なくとも 4 ビット (Q4) を使用してください。
* 70B 以上のパラメータのモデルには、最低でも 2 ビット量子化（例：UD\_Q2\_K\_XL）を使用してください。

## ⚡ ステップバイステップ チュートリアル

以下は **2 つの方法** Docker でモデルを実行する方法です：1 つは [ターミナル](#method-1-docker-terminal)を使用する方法、 [もう 1 つは](#method-2-docker-desktop-no-code) コード不要の Docker Desktop を使用する方法です：

### 方法 #1：Docker ターミナル

{% stepper %}
{% step %}

#### Docker をインストールする

Docker Model Runner はすでに **両方** [もう 1 つは](https://docs.docker.com/ai/model-runner/get-started/#docker-desktop) および [**Docker CE**](https://docs.docker.com/ai/model-runner/get-started/#docker-engine)**.**
{% endstep %}

{% step %}

#### で利用可能です

実行するモデルを決め、ターミナルからコマンドを実行します。

* 次で利用可能な信頼できる検証済みモデルのカタログを閲覧してください： [Docker Hub](https://hub.docker.com/r/ai) または [Unsloth の Hugging Face](https://huggingface.co/unsloth) ページ。
* コマンドを実行するにはターミナルに移動します。あなたの環境に `docker` がインストールされているか確認するには、'docker' と入力して Enter を押してください。
* Docker Hub ではデフォルトで Unsloth Dynamic 4 ビットが実行されますが、独自の量子化レベルを選択できます（ステップ #3 を参照）。

例えば、OpenAI を単一のコマンドで実行するには： `gpt-oss-20b` 単一のコマンドで：

```bash
docker model run ai/gpt-oss:20B
```

または特定の [Unsloth](/docs/jp/meru/unsloth-model-catalog.md) Hugging Face からの gpt-oss の量子化：

```bash
docker model run hf.co/unsloth/gpt-oss-20b-GGUF:UD-Q8_K_XL
```

**CLI 経由で gpt-oss-20b を実行するとこのようになります：**

<div><figure><img src="/files/07f620fb437ab1660dd7b24f8605b448bf1f05e5" alt="" width="563"><figcaption><p>Docker Hub の gpt-oss-20b</p></figcaption></figure> <figure><img src="/files/b6f0d21eb0c88d082d3a08aae90cb5daefd2044b" alt="" width="563"><figcaption><p>Unsloth の UD-Q8_K_XL 量子化を使った gpt-oss-20b</p></figcaption></figure></div>
{% endstep %}

{% step %}

#### 特定の量子化レベルを実行するには：

モデルの特定の量子化を実行したい場合は、モデル名に量子化名を付け加えてください（例： `:` そして量子化名をモデルに追加します（例： `Q4` Docker の場合や `UD-Q4_K_XL`）。各モデルの Docker Hub ページで利用可能なすべての量子化を確認できます。例：gpt-oss の一覧化された量子化を参照してください。 [ここ](https://hub.docker.com/r/ai/gpt-oss#gptoss).

同じことが Hugging Face 上の Unsloth の量子化にも当てはまります： [モデルの HF ページ](https://huggingface.co/unsloth/gpt-oss-20b-GGUF?show_file_info=gpt-oss-20b-Q2_K_L.gguf)にアクセスして量子化を選択し、次のように実行します： `docker model run hf.co/unsloth/gpt-oss-20b-GGUF:Q2_K_L`

<div><figure><img src="/files/0d93f307fcbcc83da891885c5a1b15b63dd4b98d" alt="" width="563"><figcaption><p>gpt-oss の量子化レベル（で） <a href="https://hub.docker.com/r/ai/gpt-oss#gptoss">Docker Hub</a></p></figcaption></figure> <figure><img src="/files/27fb07cbf03cc2e0a32af85cf1888dc57d6817a8" alt="" width="563"><figcaption><p>Unsloth gpt-oss の量子化レベル（で）<a href="https://huggingface.co/unsloth/gpt-oss-20b-GGUF"> Hugging Face</a></p></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 方法 #2：Docker Desktop（コード不要）

{% stepper %}
{% step %}

#### Docker Desktop をインストールする

Docker Model Runner はすでに [もう 1 つは](https://docs.docker.com/ai/model-runner/get-started/#docker-desktop).

1. 実行するモデルを決め、Docker Desktop を開いてからモデルタブをクリックします。
2. 'Add models +' または Docker Hub をクリックしてモデルを検索します。

次で利用可能な検証済みモデルカタログを閲覧してください： [Docker Hub](https://hub.docker.com/r/ai).

<div><figure><img src="/files/bb50180d595a4983756bd925a5632ceb5948b28a" alt=""><figcaption><p>#1. 'Models' タブをクリックし、次に 'Add models +' をクリックします</p></figcaption></figure> <figure><img src="/files/8a7e9a7b2467bf5675548d5d82ada3cdd5729cb0" alt=""><figcaption><p>#2. 希望のモデルを検索します。</p></figcaption></figure></div>
{% endstep %}

{% step %}

#### モデルをプルする

実行したいモデルをクリックして利用可能な量子化を確認します。

* 量子化は 1–16 ビットの範囲です。30B 未満のパラメータのモデルには、少なくとも 4 ビット (`Q4`).
* ハードウェアに合うサイズを選択してください：理想的には、統合メモリ、RAM、または VRAM の合計がモデルサイズと同等かそれ以上であるべきです。例えば、11GB のモデルは 12GB の統合メモリで良好に動作します。

<div><figure><img src="/files/c6aef009c2f307ee191029cec23b025c571784ff" alt=""><figcaption><p>#3. プルしたい量子化を選択します。</p></figcaption></figure> <figure><img src="/files/a981f7c05746e0f69b5ee4539ccb7dc19e1a5598" alt=""><figcaption><p>#4. モデルのダウンロードが完了するまで待ち、実行します。</p></figcaption></figure></div>
{% endstep %}

{% step %}

#### で利用可能です

'Ask a question' ボックスに任意のプロンプトを入力し、ChatGPT のように LLM を使用してください。

<figure><img src="/files/9745679269e368628f471c7ee9b5e471efa65fec" alt="" width="563"><figcaption><p>Qwen3-4B を実行する例 <code>UD-Q8_K_XL</code></p></figcaption></figure>
{% endstep %}
{% endstepper %}

#### **最新のモデルを実行するには：**

Docker 上でサポートされており Docker Hub で利用可能であれば、どの新しいモデルでも実行できます。 `llama.cpp` または `vllm` および Docker Hub 上で利用可能であれば。

### Docker Model Runner とは何ですか？

Docker Model Runner（DMR）は、コンテナを実行するのと同じように簡単に AI モデルをプルして実行できるオープンソースツールです。GitHub： <https://github.com/docker/model-runner>

これは、Docker がアプリのデプロイを標準化したのと同様に、モデルのための一貫したランタイムを提供します。内部では、スムーズでハードウェア効率の良い推論を実現するために最適化されたバックエンド（例： `llama.cpp`）を使用します。

研究者、開発者、趣味のユーザーのいずれであっても、今から次のことができます：

* オープンモデルをローカルで数秒で実行する。
* 依存関係地獄を回避、すべて Docker 内で処理されます。
* モデルのセットアップを簡単に共有および再現できます。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/tutorials/how-to-run-llms-with-docker.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
