openaiOpenAI Codex を使ったローカル LLM の実行方法

OpenAI Codex でローカルにオープンモデルを使用する方法。

このガイドでは、オープンLLMをCodex CLIにローカルで接続する方法を案内します。 完全にローカルで。DeepSeek、Qwen、Gemmaなどを含む、OpenAI互換またはAPI互換のローカルモデル設定ならどれでも動作します。

このチュートリアルでは、 GLM-4.7-Flasharrow-up-right (30BのMoE、エージェント機能+コーディングモデル)を使用します。これは24GBのRAM/ユニファイドメモリデバイスにうまく収まり、Unslothを使ってLLMを自律的にファインチューニングします。 Unslotharrow-up-right。別のモデルを使いたいですか? 任意の別のモデルarrow-up-right をスクリプト内のモデル名を更新して差し替えてください。

openaiOpenAI Codex チュートリアル

モデルの量子化には、Unslothの Dynamic GGUFsarrow-up-right を使用します。これにより、できるだけ品質を保ったまま量子化されたGGUFモデルを実行できます。

使用するのは llama.cpparrow-up-rightです。これはmacOS、Linux、Windows上でLLMを実行するためのオープンソース実行環境です。その llama-server コンポーネントは、単一の OpenAI互換の HTTPエンドポイント経由でモデルを効率的に提供できます。この構成では、モデルは ポート8001で提供され、すべてのエージェントのツール呼び出しはその1つのエンドポイントを通じてルーティングされます。

📖 #1: セットアップ チュートリアル

1

llama.cpp をインストールする

デプロイ/Codexなどで使用するローカルLLMを提供するために、 llama.cpp をインストールする必要があります。正しいGPUバインディングと最大性能のために公式ビルド手順に従います。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください(GPUを持っていない場合やCPU推論を使用したい場合)。 Apple Mac / Metal デバイスの場合、次を設定し、 -DGGML_CUDA=OFF その後通常通り続けてください。Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

モデルをダウンロードしてローカルで使用する

モデルをダウンロードするには、 huggingface_hub をPythonで使用します(先に pip install huggingface_hub hf_transferをインストールしてください)。我々は UD-Q4_K_XL 量子化を、サイズと精度のバランスが最良となるように使用します。すべてのUnsloth GGUFアップロードは私たちの コレクションはこちらで見つけられます。ダウンロードが止まる場合は、 Hugging Face Hub、XET デバッグ

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Llama-server を起動する

エージェント用途で GLM-4.7-Flash をデプロイするために、我々は llama-serverを使用します。Z.ai が推奨するサンプリングパラメータ(temp 1.0, top_p 0.95)を適用し、適切なツール呼び出しサポートのために --jinja を有効にします。

新しいターミナルでこのコマンドを実行してください( tmux を使用するか新しいターミナルを開いてください)。以下は RTX 4090(24GB GPU)にちょうど収まるはずです(23GBを使用)。 --fit on も自動オフロードしますが、パフォーマンスが悪い場合は --ctx-size を減らしてください。我々は --cache-type-k q8_0 --cache-type-v q8_0 をKVキャッシュ量子化に使用し、VRAM使用量を削減しました。

./llama.cpp/llama-server \\
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \\
    --alias "unsloth/GLM-4.7-Flash" \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --min-p 0.01 \\
    --port 8001 \\
    --kv-unified \\
    --cache-type-k q8_0 --cache-type-v q8_0 \\
    --flash-attn on \\
    --batch-size 4096 --ubatch-size 1024 \\
    --ctx-size 131072
circle-check

openai OpenAI Codex CLI チュートリアル

Codex arrow-up-rightはOpenAIの公式コーディングエージェントで、ローカルで実行されます。ChatGPT向けに設計されていますが、カスタムAPIエンドポイントをサポートするため、ローカルLLMに最適です。 Windowsarrow-up-right では、WSLを使うのが最良です。

をインストールする

Mac(Homebrew):

brew install --cask codex

ユニバーサル(NPM)Linux向け

apt update
apt install nodejs npm -y
npm install -g @openai/codex

設定する

まず一度 codex を実行してログインと初期設定を行い、次に設定ファイルを作成または編集してください: ~/.codex/config.toml (Mac/Linux)または %USERPROFILE%\\.codex\\config.toml (Windows)。

Linux/Macでは次を使います: cat > ~/.codex/config.toml 以下を入力:

プロジェクトフォルダに移動してください(mkdir project ; cd project)そして次を実行:

または任意のコードの実行を許可するには、 (注意:これによりCodexは承認なしに好きなようにコードを作成・実行します!)

すると次のように表示されます:

circle-exclamation

簡単なUnslothファインチューニングをインストールして実行するために、次のプロンプトを試してください:

そして次のように表示されます:

さらに少し待つと、最終的に次のようになります:

最終更新

役に立ちましたか?