Docker でローカル LLM を実行する方法：ステップバイステップガイド

Docker と Unsloth を使ってローカルデバイスで大規模言語モデル（LLM）を実行する方法を学びましょう。

これで、Unsloth を含む任意のモデルを実行できるようになりました。ダイナミックGGUF単一のコード行で、Mac、Windows、または Linux 上で実行できます、または まったくコードなしで モデルのデプロイを簡素化するために Docker と協力しており、Unsloth は現在 Docker 上のほとんどの GGUF モデルを動かしています。

始める前に、必ずご確認ください：ハードウェア要件および当社のヒントデバイスで LLM を実行する際のパフォーマンス最適化のための。

Docker ターミナルチュートリアル Docker ノーコードチュートリアル

始めるには、OpenAI を実行します gpt-oss 単一のコマンドで：

docker model run ai/gpt-oss:20B

または特定の Unsloth モデル / Hugging Face からの量子化を実行するには：

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16

モデルを実行するには Docker Desktop は必要なく、Docker CE で十分です。

なぜ Unsloth + Docker なのか？

Google Gemma のようなモデルラボと協力してモデルのバグ修正や精度向上に取り組んでいます。私たちの Dynamic GGUF は他の量子化手法を一貫して上回り、高精度で効率的な推論を提供します。

Docker を使用すると、セットアップ不要で即座にモデルを実行できます。Docker は Docker Model Runner （DMR）を使用しており、依存関係の問題なしにコンテナのように簡単に LLM を実行できます。DMR は Unsloth モデルと llama.cpp 内部で利用して、高速で効率的、かつ最新の推論を実現します。

⚙️ ハードウェア情報 + パフォーマンス

最良のパフォーマンスを得るには、VRAM と RAM の合計がダウンロードする量子化モデルのサイズ以上であることを目指してください。足りない場合でもモデルは動作しますが、著しく遅くなります。

モデルを保存するためにデバイスに十分なディスク容量があることを確認してください。モデルがギリギリでしかメモリに収まらない場合、モデルサイズにより異なりますが、約〜5 トークン/秒程度を期待できます。

余分な RAM/VRAM があると推論速度が向上し、特に追加の VRAM が最大のパフォーマンス向上をもたらします（ただしモデル全体が収まる場合に限ります）。

例： gpt-oss-20b (F16) をダウンロードしており、モデルが 13.8 GB の場合は、ディスク容量と RAM + VRAM が 13.8 GB を超えていることを確認してください。

量子化の推奨：

30B 未満のパラメータのモデルには、少なくとも 4 ビット (Q4) を使用してください。
70B 以上のパラメータのモデルには、最低でも 2 ビット量子化（例：UD_Q2_K_XL）を使用してください。

⚡ ステップバイステップチュートリアル

以下は 2 つの方法 Docker でモデルを実行する方法です：1 つはターミナルを使用する方法、もう 1 つはコード不要の Docker Desktop を使用する方法です：

方法 #1：Docker ターミナル

Docker をインストールする

Docker Model Runner はすでに両方もう 1 つはおよび Docker CE.

で利用可能です

実行するモデルを決め、ターミナルからコマンドを実行します。

次で利用可能な信頼できる検証済みモデルのカタログを閲覧してください： Docker Hub または Unsloth の Hugging Face ページ。
コマンドを実行するにはターミナルに移動します。あなたの環境に docker がインストールされているか確認するには、'docker' と入力して Enter を押してください。
Docker Hub ではデフォルトで Unsloth Dynamic 4 ビットが実行されますが、独自の量子化レベルを選択できます（ステップ #3 を参照）。

例えば、OpenAI を単一のコマンドで実行するには： gpt-oss-20b 単一のコマンドで：

docker model run ai/gpt-oss:20B

または特定の Unsloth Hugging Face からの gpt-oss の量子化：

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:UD-Q8_K_XL

CLI 経由で gpt-oss-20b を実行するとこのようになります：

特定の量子化レベルを実行するには：

モデルの特定の量子化を実行したい場合は、モデル名に量子化名を付け加えてください（例： : そして量子化名をモデルに追加します（例： Q4 Docker の場合や UD-Q4_K_XL）。各モデルの Docker Hub ページで利用可能なすべての量子化を確認できます。例：gpt-oss の一覧化された量子化を参照してください。ここ.

同じことが Hugging Face 上の Unsloth の量子化にも当てはまります：モデルの HF ページにアクセスして量子化を選択し、次のように実行します： docker model run hf.co/unsloth/gpt-oss-20b-GGUF:Q2_K_L

方法 #2：Docker Desktop（コード不要）

Docker Desktop をインストールする

Docker Model Runner はすでにもう 1 つは.

実行するモデルを決め、Docker Desktop を開いてからモデルタブをクリックします。
'Add models +' または Docker Hub をクリックしてモデルを検索します。

次で利用可能な検証済みモデルカタログを閲覧してください： Docker Hub.

モデルをプルする

実行したいモデルをクリックして利用可能な量子化を確認します。

量子化は 1–16 ビットの範囲です。30B 未満のパラメータのモデルには、少なくとも 4 ビット (Q4).
ハードウェアに合うサイズを選択してください：理想的には、統合メモリ、RAM、または VRAM の合計がモデルサイズと同等かそれ以上であるべきです。例えば、11GB のモデルは 12GB の統合メモリで良好に動作します。

で利用可能です

'Ask a question' ボックスに任意のプロンプトを入力し、ChatGPT のように LLM を使用してください。

Docker Model Runner とは何ですか？

Docker Model Runner（DMR）は、コンテナを実行するのと同じように簡単に AI モデルをプルして実行できるオープンソースツールです。GitHub： https://github.com/docker/model-runner

これは、Docker がアプリのデプロイを標準化したのと同様に、モデルのための一貫したランタイムを提供します。内部では、スムーズでハードウェア効率の良い推論を実現するために最適化されたバックエンド（例： llama.cpp）を使用します。

研究者、開発者、趣味のユーザーのいずれであっても、今から次のことができます：

オープンモデルをローカルで数秒で実行する。
依存関係地獄を回避、すべて Docker 内で処理されます。
モデルのセットアップを簡単に共有および再現できます。

前へDevstral 次へDeepSeek-V3-0324

最終更新 3 か月前

役に立ちましたか？

hashtagなぜ Unsloth + Docker なのか？

hashtag⚙️ ハードウェア情報 + パフォーマンス

hashtag⚡ ステップバイステップ チュートリアル

hashtag方法 #1：Docker ターミナル

hashtagDocker をインストールする

hashtagで利用可能です

hashtag特定の量子化レベルを実行するには：

hashtag方法 #2：Docker Desktop（コード不要）

hashtagDocker Desktop をインストールする

hashtagモデルをプルする

hashtagで利用可能です

hashtag最新のモデルを実行するには：

hashtagDocker Model Runner とは何ですか？

なぜ Unsloth + Docker なのか？

⚙️ ハードウェア情報 + パフォーマンス

⚡ ステップバイステップチュートリアル

方法 #1：Docker ターミナル

Docker をインストールする

で利用可能です

特定の量子化レベルを実行するには：

方法 #2：Docker Desktop（コード不要）

Docker Desktop をインストールする

モデルをプルする

で利用可能です

最新のモデルを実行するには：

Docker Model Runner とは何ですか？