openaiOpenAI Codex を使ったローカル LLM 実行方法

ローカルデバイス上で OpenAI Codex を使ってオープンモデルを利用する方法。

このガイドでは、オープンなLLMを完全にローカルでCodex CLIに接続する方法を説明します。 完全にローカルで。DeepSeek、Qwen、Gemmaなどを含む、OpenAI互換のローカルモデル設定で動作します。

このチュートリアルでは、 GLM-4.7-Flasharrow-up-right (30BのMoE、エージェンティック+コーディングモデル)を使用します。これは24GBのRAM/ユニファイドメモリデバイスにうまく収まり、Unslothを使ってLLMを自律的にファインチューニングするのに適しています。 Unslotharrow-up-right。別のモデルを好む場合は、 他の任意のモデルarrow-up-right をスクリプト内のモデル名を更新して差し替えてください。

openaiOpenAI Codex チュートリアル

モデルの量子化については、Unslothの Dynamic GGUFsarrow-up-right を使用します。これにより、できるだけ品質を維持しつつ量子化されたGGUFモデルを実行できます。

我々は llama.cpparrow-up-rightを使用します。これはmacOS、Linux、WindowsでLLMを実行するためのオープンソースのランタイムです。その llama-server コンポーネントは、単一の OpenAI互換の HTTPエンドポイントを介してモデルを効率的に提供できるようにします。この設定では、モデルは ポート8001で提供され、すべてのエージェントツール呼び出しはその1つのエンドポイントを経由します。

📖 #1: セットアップチュートリアル

1

llama.cppをインストールする

をインストールする必要があります llama.cpp 。これはCodexなどで使用するローカルLLMをデプロイ/提供するためのものです。正しいGPUバインディングと最大のパフォーマンスのために公式のビルド手順に従います。次を変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPUがない場合やCPU推論のみを行いたい場合は。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

モデルをダウンロードしてローカルで使用する

モデルをダウンロードするには huggingface_hub をPythonで使用します(インストール後 pip install huggingface_hub hf_transfer)。ここでは UD-Q4_K_XL 量子化(quant)を、サイズと精度のバランスが最良となるように使用します。すべてのUnsloth GGUFアップロードは私たちの コレクションはこちらにあります。ダウンロードが停止する場合は、を参照してください ダウンロードのデバッグ、停滞や停止したダウンロード、遅いダウンロードのトラブルシューティング

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Llama-serverを起動する

エージェンティックなワークロード向けにGLM-4.7-Flashをデプロイするために、我々は llama-serverを使用します。Z.aiの推奨サンプリングパラメータ(temp 1.0, top_p 0.95)を適用し、適切なツール呼び出しサポートのために --jinja を有効にします。

新しいターミナルでこのコマンドを実行してください( tmux を使うか新しいターミナルを開いてください)。以下は 24GB GPU(RTX 4090)にぴったり収まるはずです(23GBを使用します) --fit on も自動オフロードを行いますが、パフォーマンスが悪い場合は --ctx-size を減らしてください。私たちは --cache-type-k q8_0 --cache-type-v q8_0 をKVキャッシュの量子化に使用してVRAM使用量を削減しました。

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

openai OpenAI Codex CLI チュートリアル

Codex arrow-up-rightはローカルで動作するOpenAIの公式コーディングエージェントです。ChatGPT向けに設計されていますが、カスタムAPIエンドポイントをサポートしており、ローカルLLMに最適です。にインストールする場合は、 Windowsarrow-up-right では、WSLを使用するのが最善です。

インストールする

Mac(Homebrew):

brew install --cask codex

汎用(NPM)Linux向け

apt update
apt install nodejs npm -y
npm install -g @openai/codex

設定する

最初に次を実行します codex でログインして設定を行い、その後構成ファイルを作成または編集します(場所: ~/.codex/config.toml (Mac/Linux)または %USERPROFILE%\.codex\config.toml (Windows))。

を使用してください cat > ~/.codex/config.toml (Linux / Macの場合):

プロジェクトフォルダに移動します(mkdir project ; cd project)そして次を実行します:

または任意のコードの実行を許可するには。 (注意:これによりCodexは承認なしに好き勝手にコードを実行するようになります!)

すると次のように表示されます:

circle-exclamation

次のプロンプトを試して、単純なUnslothのファインチューンをインストールして実行してください:

すると次のように表示されます:

そして少し待つと、ついに次が得られます:

最終更新

役に立ちましたか?