dockerDocker でのローカル LLM 実行:ステップバイステップガイド

Docker と Unsloth を使ってローカルデバイスで大規模言語モデル(LLM)を実行する方法を学びます。

これで、Unsloth を含む任意のモデルを実行できるようになりました。 ダイナミックGGUF単一のコード行で、Mac、Windows、または Linux 上で実行できます、または まったくコードなしで モデルのデプロイを簡素化するために Docker と協力しており、Unsloth は現在 Docker 上のほとんどの GGUF モデルを動かしています。

始める前に、必ずご確認ください: ハードウェア要件 および 当社のヒント デバイスで LLM を実行する際のパフォーマンス最適化のための。

Docker ターミナル チュートリアルDocker ノーコード チュートリアル

始めるには、OpenAI を実行します gpt-oss 単一のコマンドで:

docker model run ai/gpt-oss:20B

または特定の Unsloth モデル / Hugging Face からの量子化を実行するには:

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16
circle-check

なぜ Unsloth + Docker なのか?

Google Gemma のようなモデルラボと協力してモデルのバグ修正や精度向上に取り組んでいます。私たちの Dynamic GGUF は他の量子化手法を一貫して上回り、高精度で効率的な推論を提供します。

Docker を使用すると、セットアップ不要で即座にモデルを実行できます。Docker は Docker Model Runnerarrow-up-right (DMR)を使用しており、依存関係の問題なしにコンテナのように簡単に LLM を実行できます。DMR は Unsloth モデルと llama.cpp 内部で利用して、高速で効率的、かつ最新の推論を実現します。

⚙️ ハードウェア情報 + パフォーマンス

最良のパフォーマンスを得るには、VRAM と RAM の合計がダウンロードする量子化モデルのサイズ以上であることを目指してください。足りない場合でもモデルは動作しますが、著しく遅くなります。

モデルを保存するためにデバイスに十分なディスク容量があることを確認してください。モデルがギリギリでしかメモリに収まらない場合、モデルサイズにより異なりますが、約 〜5 トークン/秒 程度を期待できます。

余分な RAM/VRAM があると推論速度が向上し、特に追加の VRAM が最大のパフォーマンス向上をもたらします(ただしモデル全体が収まる場合に限ります)。

circle-info

例: gpt-oss-20b (F16) をダウンロードしており、モデルが 13.8 GB の場合は、ディスク容量と RAM + VRAM が 13.8 GB を超えていることを確認してください。

量子化の推奨:

  • 30B 未満のパラメータのモデルには、少なくとも 4 ビット (Q4) を使用してください。

  • 70B 以上のパラメータのモデルには、最低でも 2 ビット量子化(例:UD_Q2_K_XL)を使用してください。

⚡ ステップバイステップ チュートリアル

以下は 2 つの方法 Docker でモデルを実行する方法です:1 つは ターミナルを使用する方法、 もう 1 つは コード不要の Docker Desktop を使用する方法です:

方法 #1:Docker ターミナル

1

Docker をインストールする

Docker Model Runner はすでに 両方 もう 1 つはarrow-up-right および Docker CEarrow-up-right.

2

で利用可能です

実行するモデルを決め、ターミナルからコマンドを実行します。

  • 次で利用可能な信頼できる検証済みモデルのカタログを閲覧してください: Docker Hubarrow-up-right または Unsloth の Hugging Facearrow-up-right ページ。

  • コマンドを実行するにはターミナルに移動します。あなたの環境に docker がインストールされているか確認するには、'docker' と入力して Enter を押してください。

  • Docker Hub ではデフォルトで Unsloth Dynamic 4 ビットが実行されますが、独自の量子化レベルを選択できます(ステップ #3 を参照)。

例えば、OpenAI を単一のコマンドで実行するには: gpt-oss-20b 単一のコマンドで:

または特定の Unsloth Hugging Face からの gpt-oss の量子化:

CLI 経由で gpt-oss-20b を実行するとこのようになります:

Docker Hub の gpt-oss-20b
Unsloth の UD-Q8_K_XL 量子化を使った gpt-oss-20b
3

特定の量子化レベルを実行するには:

モデルの特定の量子化を実行したい場合は、モデル名に量子化名を付け加えてください(例: : そして量子化名をモデルに追加します(例: Q4 Docker の場合や UD-Q4_K_XL)。各モデルの Docker Hub ページで利用可能なすべての量子化を確認できます。例:gpt-oss の一覧化された量子化を参照してください。 ここarrow-up-right.

同じことが Hugging Face 上の Unsloth の量子化にも当てはまります: モデルの HF ページarrow-up-rightにアクセスして量子化を選択し、次のように実行します: docker model run hf.co/unsloth/gpt-oss-20b-GGUF:Q2_K_L

gpt-oss の量子化レベル(で) Docker Hubarrow-up-right
Unsloth gpt-oss の量子化レベル(で) Hugging Facearrow-up-right

方法 #2:Docker Desktop(コード不要)

1

Docker Desktop をインストールする

Docker Model Runner はすでに もう 1 つはarrow-up-right.

  1. 実行するモデルを決め、Docker Desktop を開いてからモデルタブをクリックします。

  2. 'Add models +' または Docker Hub をクリックしてモデルを検索します。

次で利用可能な検証済みモデルカタログを閲覧してください: Docker Hubarrow-up-right.

#1. 'Models' タブをクリックし、次に 'Add models +' をクリックします
#2. 希望のモデルを検索します。
2

モデルをプルする

実行したいモデルをクリックして利用可能な量子化を確認します。

  • 量子化は 1–16 ビットの範囲です。30B 未満のパラメータのモデルには、少なくとも 4 ビット (Q4).

  • ハードウェアに合うサイズを選択してください:理想的には、統合メモリ、RAM、または VRAM の合計がモデルサイズと同等かそれ以上であるべきです。例えば、11GB のモデルは 12GB の統合メモリで良好に動作します。

#3. プルしたい量子化を選択します。
#4. モデルのダウンロードが完了するまで待ち、実行します。
3

で利用可能です

'Ask a question' ボックスに任意のプロンプトを入力し、ChatGPT のように LLM を使用してください。

Qwen3-4B を実行する例 UD-Q8_K_XL

最新のモデルを実行するには:

Docker 上でサポートされており Docker Hub で利用可能であれば、どの新しいモデルでも実行できます。 llama.cpp または vllm および Docker Hub 上で利用可能であれば。

Docker Model Runner とは何ですか?

Docker Model Runner(DMR)は、コンテナを実行するのと同じように簡単に AI モデルをプルして実行できるオープンソースツールです。GitHub: https://github.com/docker/model-runnerarrow-up-right

これは、Docker がアプリのデプロイを標準化したのと同様に、モデルのための一貫したランタイムを提供します。内部では、スムーズでハードウェア効率の良い推論を実現するために最適化されたバックエンド(例: llama.cpp)を使用します。

研究者、開発者、趣味のユーザーのいずれであっても、今から次のことができます:

  • オープンモデルをローカルで数秒で実行する。

  • 依存関係地獄を回避、すべて Docker 内で処理されます。

  • モデルのセットアップを簡単に共有および再現できます。

最終更新

役に立ちましたか?