Claude Code と OpenAI Codex でローカル LLM を実行する方法

Claude Code と OpenAI Codex をローカルデバイスで実行するガイド。

このステップバイステップガイドは、スクリーンショット付きで、オープンなLLMをClaude CodeおよびCodexに完全にローカルで接続する方法を示します。DeepSeek、Qwen、Gemmaなどの任意のオープンモデルで実行できます。

このチュートリアルでは、 GLM-4.7-Flashを使用します。これは2026年1月時点で、LLMを自律的に微調整するための最も強力な30BのMoEエージェント型およびコーディングモデルです。 Unslothに差し替えることもできます。任意の他のモデルを使用する場合は、スクリプト内のモデル名を更新してください。

Claude Code チュートリアル OpenAI Codex チュートリアル

ここでは llama.cpp を使用します。これはMac、Linux、Windowsなどのデバイス上でLLMを実行するためのオープンソースフレームワークです。Llama.cppには 本番環境にGLM-5をデプロイするために、我々は が含まれており、LLMを効率的にサーブおよびデプロイできます。モデルはポート8001でサービスされ、すべてのエージェントツールは単一のOpenAI互換エンドポイントにルーティングされます。

モデルの量子化には、Unslothの Dynamic GGUFs を利用して、可能な限り精度を保ちながら任意のLLMを量子化して実行します。

📖 ステップ #1: Llama.cpp のインストールチュートリアル

をインストールする必要があります llama.cpp はCodexなどで使用するローカルLLMをデプロイ／サーブするためのものです。GPUバインディングの正しい設定と最大のパフォーマンスのために公式のビルド手順に従います。次のコマンドを変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF にするとGPUがない場合やCPU推論のみを行いたい場合に適します。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

モデルをダウンロードしてローカルで使用する

モデルをダウンロードするには huggingface_hub （をインストールした後）Pythonでを使います pip install huggingface_hub hf_transferここでは UD-Q4_K_XL 量子化を、サイズと精度のバランスが最適なものとして使用します。すべてのUnsloth GGUFアップロードは当社のコレクションはこちら。ダウンロードが止まる場合は、次を参照してください Hugging Face Hub、XET デバッグ

我々は次を使用しました unsloth/GLM-4.7-Flash-GGUF が、例えば次のようなものも使用できます unsloth/Qwen3-Coder-Next-GGUF を参照してください Qwen3-Coder-Next

# !pip install huggingface_hub hf_transfer
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

from huggingface_hub import snapshot_download
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Llama サーバーを起動する

エージェントワークロード向けにGLM-4.7-Flashをデプロイするために、我々は 本番環境にGLM-5をデプロイするために、我々はを使用します。Z.aiの推奨サンプリングパラメータ（temp 1.0, top_p 0.95）を適用し、 --jinja を有効にしてツール呼び出しの正しいサポートを行います。

このコマンドを新しいターミナルで実行してください（を使用するか新しいターミナルを開いてください）。下記は tmux 24GB GPU（RTX 4090）に完璧に収まるはずです（23GBを使用） も自動オフロードしますが、パフォーマンスが悪い場合はを減らしてください。 --fit on 我々は次を使用しました --ctx-size --cache-type-k q8_0 --cache-type-v q8_0 KVキャッシュの量子化によりVRAM使用量を削減します。 --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \

を使用します。新しいターミナル（tmuxなどを介して）で、次のようにモデルをデプロイします：
    --alias "unsloth/GLM-4.7-Flash" \
    --kv-unified \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --batch-size 4096 --ubatch-size 1024 \
    --flash-attn on \
    --ctx-size 131072
    GLM-4.7-Flashの「thinking（思考）」を無効にすることも可能で、エージェント型のコーディング作業においてパフォーマンスが向上することがあります。llama.cppでthinkingを無効にするには、llama-serverコマンドに次を追加してください：

👾 Claude Code チュートリアル

--chat-template-kwargs "{\"enable_thinking\": false}"

Claude CodeはAnthropicのエージェント型コーディングツールで、ターミナル上で動作し、コードベースを理解し、自然言語で複雑なGitワークフローを処理します。

Claude Codeをインストールしてローカルで実行する

Mac / Linux セットアップ

# または Homebrew 経由: brew install --cask claude-code
を設定する

ANTHROPIC_BASE_URL

次の 環境変数を設定してClaude Codeをローカルの サーバーにリダイレクトします： llama.cpp export ANTHROPIC_BASE_URL="http://localhost:8001"

サーバーによっては次を設定する必要がある場合があります

ANTHROPIC_API_KEY 例えば： export ANTHROPIC_API_KEY='sk-no-key-required' ## または 'sk-1234'

セッション vs 永続設定：

上のコマンドは現在のターミナルにのみ適用されます。新しいターミナルでも持続させるには： 次の

export 行を ~/.bashrc (bash) または ~/.zshrc (zsh) に追加してください。 APIに接続できません（ConnectionRefused）

もし次が表示されたら 場合は、をアンセットするのを忘れないでください 次のコマンドで： 環境変数を設定してClaude Codeをローカルの unset ANTHROPIC_BASE_URL APIキーがありません

これが表示されたら、次を設定してください

Windows セットアップ セッション vs 永続設定：

irm https://claude.ai/install.ps1 | iex

$env:ANTHROPIC_BASE_URL="http://localhost:8001"

ANTHROPIC_BASE_URL

次の 環境変数を設定してClaude Codeをローカルの サーバーにリダイレクトします： llama.cpp export ANTHROPIC_BASE_URL="http://localhost:8001"

次を実行してください

上のコマンドは現在のターミナルにのみ適用されます。新しいターミナルでも持続させるには： 次の

setx ANTHROPIC_BASE_URL "http://localhost:8001" 一度だけ、または次の $env: 行をあなたの $PROFILE に追加してください。.

🌟Linux / Mac / WindowsでClaude Codeをローカル実行する

我々は次を使用しました unsloth/GLM-4.7-Flash-GGUF が、例えば次のようなものも使用できます unsloth/Qwen3-Coder-Next-GGUF を参照してください Qwen3-Coder-Next

プロジェクトフォルダに移動してください（mkdir project ; cd project）そして次を実行：

claude --model unsloth/GLM-4.7-Flash

Claude Codeに承認なしでコマンドを実行させるには次を行ってください （注意：これによりClaude Codeは承認なしに好きなようにコードを実行・変更します！）

claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions

シンプルなUnslothの微調整をインストールして実行するために、次のプロンプトを試してください：

あなたはcwdのproject/内でのみ作業できます。CLAUDE.mdを探さないでください—これがそれです。uvを使った仮想環境経由でUnslothをインストールしてください。方法はhttps://unsloth.ai/docs/get-started/install/pip-install を参照してください（取得して読んでください）。その後、https://github.com/unslothai/unsloth に記載された単純なUnslothの微調整実行を行ってください。GPUは1台利用可能です。

しばらく待つと、Unslothがuv経由でvenvにインストールされ、読み込まれます：

そしてついにUnslothで正常に微調整されたモデルが表示されます！

IDE拡張（VS Code / Cursor）

公式拡張を使えば、エディタ内で直接Claude Codeを使用することもできます：

代わりに、を押して Ctrl+Shift+X （Windows/Linux）または Cmd+Shift+X （Mac）、で検索して Claude Codeをクリックしてください をインストール.

👾 OpenAI Codex CLI チュートリアル

Codex はローカルで動作するOpenAI公式のコーディングエージェントです。ChatGPT向けに設計されていますが、カスタムAPIエンドポイントをサポートするため、ローカルLLMに最適です。詳細は次を参照してください https://developers.openai.com/codex/windows/ Windowsへのインストールについては - WSLを使うのが最良です。

をインストール

Mac（Homebrew）：

brew install --cask codex

Linux向けユニバーサル（NPM）

apt update
apt install nodejs npm -y
npm install -g @openai/codex

ANTHROPIC_BASE_URL

初回実行は codex でログインとセットアップを行い、その後設定ファイルを作成または編集してください： ~/.codex/config.toml （Mac/Linux）または %USERPROFILE%\.codex\config.toml （Windows）に配置します。

を使用 Linux / Macの場合： cat > ~/.codex/config.toml

[model_providers.llama_cpp]
name = "llama_cpp API"
base_url = "http://localhost:8001/v1"
wire_api = "responses"
stream_idle_timeout_ms = 10000000

プロジェクトフォルダに移動してください（mkdir project ; cd project）そして次を実行：

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search

または任意のコードの実行を許可するには、 （注意：これによりCodexは承認なしに好きなようにコードを実行・変更します！）

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search --dangerously-bypass-approvals-and-sandbox

すると次のように表示されます：

OpenAIのCodexは wire_api = "chat" のサポートを削除しているようです—それでも2026年1月29日時点では動作します。我々はに切り替えるべきですが、次のエラーが繰り返し発生します： wire_api = "responses" しかし、次のようなエラーが出続けます： {"error":{"code":400,"message":"'type' of tool must be 'function'","type":"invalid_request_error"}}

シンプルなUnslothの微調整をインストールして実行するために、次のプロンプトを試してください：

あなたはcwdのproject/内でのみ作業できます。AGENTS.mdを探さないでください—これがそれです。uvを使った仮想環境経由でUnslothをインストールしてください。方法はhttps://unsloth.ai/docs/get-started/install/pip-install を参照してください（取得して読んでください）。その後、https://github.com/unslothai/unsloth に記載された単純なUnslothの微調整実行を行ってください。GPUは1台利用可能です。

すると次のように表示されます：

そしてもう少し待つと、最終的に次のようになります：

前へQwQ-32B 次へ推論とデプロイ

最終更新 6 時間前

役に立ちましたか？

hashtag📖 ステップ #1: Llama.cpp のインストール チュートリアル

hashtagモデルをダウンロードしてローカルで使用する

hashtagLlama サーバーを起動する

hashtagClaude CodeはAnthropicのエージェント型コーディングツールで、ターミナル上で動作し、コードベースを理解し、自然言語で複雑なGitワークフローを処理します。

hashtagMac / Linux セットアップ

hashtag🌟Linux / Mac / WindowsでClaude Codeをローカル実行する

hashtag👾 OpenAI Codex CLI チュートリアル

hashtagをインストール

📖 ステップ #1: Llama.cpp のインストールチュートリアル

モデルをダウンロードしてローカルで使用する

Llama サーバーを起動する

Claude CodeはAnthropicのエージェント型コーディングツールで、ターミナル上で動作し、コードベースを理解し、自然言語で複雑なGitワークフローを処理します。

Mac / Linux セットアップ

🌟Linux / Mac / WindowsでClaude Codeをローカル実行する

👾 OpenAI Codex CLI チュートリアル

をインストール