codeClaude Code と OpenAI Codex でローカル LLM を実行する方法

Claude Code と OpenAI Codex をローカルデバイスで実行するガイド。

このステップバイステップガイドは、スクリーンショット付きで、オープンなLLMをClaude CodeおよびCodexに完全にローカルで接続する方法を示します。DeepSeek、Qwen、Gemmaなどの任意のオープンモデルで実行できます。

このチュートリアルでは、 GLM-4.7-Flashを使用します。これは2026年1月時点で、LLMを自律的に微調整するための最も強力な30BのMoEエージェント型およびコーディングモデルです。 Unslotharrow-up-rightに差し替えることもできます。 任意の他のモデルを使用する場合は、スクリプト内のモデル名を更新してください。

Claude Code チュートリアルOpenAI Codex チュートリアル

ここでは llama.cpparrow-up-right を使用します。これはMac、Linux、Windowsなどのデバイス上でLLMを実行するためのオープンソースフレームワークです。Llama.cppには 本番環境にGLM-5をデプロイするために、我々は が含まれており、LLMを効率的にサーブおよびデプロイできます。モデルはポート8001でサービスされ、すべてのエージェントツールは単一のOpenAI互換エンドポイントにルーティングされます。

モデルの量子化には、Unslothの Dynamic GGUFs を利用して、可能な限り精度を保ちながら任意のLLMを量子化して実行します。

📖 ステップ #1: Llama.cpp のインストール チュートリアル

1

をインストールする必要があります llama.cpp はCodexなどで使用するローカルLLMをデプロイ/サーブするためのものです。GPUバインディングの正しい設定と最大のパフォーマンスのために公式のビルド手順に従います。次のコマンドを変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF にするとGPUがない場合やCPU推論のみを行いたい場合に適します。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

モデルをダウンロードしてローカルで使用する

モデルをダウンロードするには huggingface_hub (をインストールした後)Pythonでを使います pip install huggingface_hub hf_transferここでは UD-Q4_K_XL 量子化を、サイズと精度のバランスが最適なものとして使用します。すべてのUnsloth GGUFアップロードは当社の コレクションはこちら。ダウンロードが止まる場合は、次を参照してください Hugging Face Hub、XET デバッグ

circle-check
# !pip install huggingface_hub hf_transfer
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

from huggingface_hub import snapshot_download
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Llama サーバーを起動する

エージェントワークロード向けにGLM-4.7-Flashをデプロイするために、我々は 本番環境にGLM-5をデプロイするために、我々はを使用します。Z.aiの推奨サンプリングパラメータ(temp 1.0, top_p 0.95)を適用し、 --jinja を有効にしてツール呼び出しの正しいサポートを行います。

このコマンドを新しいターミナルで実行してください(を使用するか新しいターミナルを開いてください)。下記は tmux 24GB GPU(RTX 4090)に完璧に収まるはずです(23GBを使用) も自動オフロードしますが、パフォーマンスが悪い場合はを減らしてください。 --fit on 我々は次を使用しました --ctx-size --cache-type-k q8_0 --cache-type-v q8_0 KVキャッシュの量子化によりVRAM使用量を削減します。 --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \

を使用します。新しいターミナル(tmuxなどを介して)で、次のようにモデルをデプロイします:
    --alias "unsloth/GLM-4.7-Flash" \
    --kv-unified \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --batch-size 4096 --ubatch-size 1024 \
    --flash-attn on \
    --ctx-size 131072
    GLM-4.7-Flashの「thinking(思考)」を無効にすることも可能で、エージェント型のコーディング作業においてパフォーマンスが向上することがあります。llama.cppでthinkingを無効にするには、llama-serverコマンドに次を追加してください:
circle-check

Claude CodeはAnthropicのエージェント型コーディングツールで、ターミナル上で動作し、コードベースを理解し、自然言語で複雑なGitワークフローを処理します。

Claude Codeをインストールしてローカルで実行する

Mac / Linux セットアップ

# または Homebrew 経由: brew install --cask claude-code
を設定する

ANTHROPIC_BASE_URL

次の 環境変数を設定してClaude Codeをローカルの サーバーにリダイレクトします: llama.cpp export ANTHROPIC_BASE_URL="http://localhost:8001"

サーバーによっては次を設定する必要がある場合があります

ANTHROPIC_API_KEY 例えば: export ANTHROPIC_API_KEY='sk-no-key-required' ## または 'sk-1234'

セッション vs 永続設定:

上のコマンドは現在のターミナルにのみ適用されます。新しいターミナルでも持続させるには: 次の

export 行を ~/.bashrc (bash) または ~/.zshrc (zsh) に追加してください。 APIに接続できません(ConnectionRefused)

もし次が表示されたら 場合は、をアンセットするのを忘れないでください 次のコマンドで: 環境変数を設定してClaude Codeをローカルの unset ANTHROPIC_BASE_URL APIキーがありません

これが表示されたら、次を設定してください

Windows セットアップ セッション vs 永続設定:

🌟Linux / Mac / WindowsでClaude Codeをローカル実行する

circle-check

プロジェクトフォルダに移動してください(mkdir project ; cd project)そして次を実行:

Claude Codeに承認なしでコマンドを実行させるには次を行ってください (注意:これによりClaude Codeは承認なしに好きなようにコードを実行・変更します!)

シンプルなUnslothの微調整をインストールして実行するために、次のプロンプトを試してください:

しばらく待つと、Unslothがuv経由でvenvにインストールされ、読み込まれます:

そしてついにUnslothで正常に微調整されたモデルが表示されます!

IDE拡張(VS Code / Cursor)

公式拡張を使えば、エディタ内で直接Claude Codeを使用することもできます:

代わりに、を押して Ctrl+Shift+X (Windows/Linux)または Cmd+Shift+X (Mac)、で検索して Claude Codeをクリックしてください をインストール.

もし次が表示されたら 場合は、をアンセットするのを忘れないでください 次のコマンドで: 環境変数を設定してClaude Codeをローカルの unset ANTHROPIC_BASE_URL APIキーがありません

👾 OpenAI Codex CLI チュートリアル

Codex arrow-up-rightはローカルで動作するOpenAI公式のコーディングエージェントです。ChatGPT向けに設計されていますが、カスタムAPIエンドポイントをサポートするため、ローカルLLMに最適です。詳細は次を参照してください https://developers.openai.com/codex/windows/arrow-up-right Windowsへのインストールについては - WSLを使うのが最良です。

をインストール

Mac(Homebrew):

Linux向けユニバーサル(NPM)

ANTHROPIC_BASE_URL

初回実行は codex でログインとセットアップを行い、その後設定ファイルを作成または編集してください: ~/.codex/config.toml (Mac/Linux)または %USERPROFILE%\.codex\config.toml (Windows)に配置します。

を使用 Linux / Macの場合: cat > ~/.codex/config.toml

プロジェクトフォルダに移動してください(mkdir project ; cd project)そして次を実行:

または任意のコードの実行を許可するには、 (注意:これによりCodexは承認なしに好きなようにコードを実行・変更します!)

すると次のように表示されます:

circle-exclamation

シンプルなUnslothの微調整をインストールして実行するために、次のプロンプトを試してください:

すると次のように表示されます:

そしてもう少し待つと、最終的に次のようになります:

最終更新

役に立ちましたか?