Claude Code & OpenAI Codex を使ったローカル LLM 実行方法

Claude Code と OpenAI Codex をローカルデバイスで実行するガイド。

このステップバイステップガイドでは、オープンなLLMをClaude CodeやCodexに完全にローカルで接続する方法をスクリーンショット付きで説明します。DeepSeek、Qwen、Gemmaなど任意のオープンモデルで実行できます。

このチュートリアルでは、 GLM-4.7-Flashを使用します。これは、2026年1月時点で最も強力な30B MoEのエージェント型およびコーディングモデルで、を用いてLLMを自律的に微調整します。 Unslothに差し替えることもできます。他のモデルなら何でも、スクリプト内のモデル名を更新するだけです。

Claude Code チュートリアル OpenAI Codex チュートリアル

我々は llama.cpp を使用します。これはMac、Linux、Windows等のデバイスでLLMを実行するためのオープンソースフレームワークです。Llama.cppには llama-server が含まれており、LLMを効率的にサーブおよびデプロイすることが可能です。モデルはポート8001で提供され、すべてのエージェントツールは単一のOpenAI互換エンドポイントを通じてルーティングされます。

モデルの量子化については、Unslothを利用しますダイナミックGGUF で任意のLLMを量子化して実行し、できるだけ精度を保ちます。

📖 ステップ #1: Llama.cpp のインストールチュートリアル

をインストールする必要があります llama.cpp をデプロイ/サーブしてCodexなどでローカルLLMを使用するためです。正しいGPUバインディングと最大性能のために公式のビルド手順に従います。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

モデルをダウンロードしてローカルで使用する

モデルをダウンロードするには huggingface_hub （を介してインストールした後）のPythonで使用します）。我々は pip install huggingface_hub hf_transfer量子化を、サイズと精度のバランスが最良の UD-Q4_K_XL を使用します。すべてのUnsloth GGUFアップロードは我々のコレクションはこちら.

を使用しました unsloth/GLM-4.7-Flash-GGUF 、しかし例えば以下のようなものを使用することもできます unsloth/Qwen3-Coder-Next-GGUF を見ると良いです Qwen3-Coder-Next

import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Llama サーバーを起動する

エージェントワークロード向けにGLM-4.7-Flashをデプロイするために我々は llama-serverを使用します。我々はZ.ai推奨のサンプリングパラメータ（temp 1.0, top_p 0.95）を適用し、ツール呼び出しのサポートのために --jinja を有効にします。

このコマンドを新しいターミナルで実行してください（を使用するか新しいターミナルを開いてください）。以下は tmux 新しいターミナルに収まるはずです 24GB GPU（RTX 4090）にちょうど収まる（23GBを使用） --fit on も自動でオフロードしますが、パフォーマンスが悪い場合はを減らしてください 会話モードでモデルを実行し、任意のプロンプトを試してください。 を使用しました --cache-type-k q8_0 --cache-type-v q8_0 はVRAM使用量を削減するためのKVキャッシュ量子化に使用します。

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072

GLM-4.7-Flashでは「思考（thinking）」を無効にするとエージェント型のコーディング処理でパフォーマンスが向上することがあります。llama.cppでthinkingを無効にするには、llama-serverコマンドに次を追加してください：

--chat-template-kwargs "{\"enable_thinking\": false}"

👾 Claude Code チュートリアル

Claude CodeはAnthropicのエージェント型コーディングツールで、ターミナル上で動作し、コードベースを理解し、自然言語で複雑なGitワークフローを処理します。

Claude Code をインストールしてローカルで実行する

curl -fsSL https://claude.ai/install.sh | bash
# または Homebrew 経由: brew install --cask claude-code

環境変数を設定する

を設定してください ANTHROPIC_BASE_URL Claude Code をローカルの llama.cpp サーバーにリダイレクトするための環境変数：

export ANTHROPIC_BASE_URL="http://localhost:8001"

また、サーバーによっては以下を設定する必要があるかもしれません ANTHROPIC_API_KEY 例えば以下のように：

export ANTHROPIC_API_KEY='sk-no-key-required' ## または 'sk-1234'

セッションと永続化： 上のコマンドは現在のターミナルにのみ適用されます。新しいターミナルでも有効にするには：

を追加してください export の行を ~/.bashrc (bash) または ~/.zshrc (zsh) に追加します。

もし次のように表示されたら API に接続できません（ConnectionRefused） の場合は、をアンセットするのを忘れないでください ANTHROPIC_BASE_URL 経由 unset ANTHROPIC_BASE_URL

APIキーがありません

これが表示されたら、を設定してください export ANTHROPIC_API_KEY='sk-no-key-required' ## または 'sk-1234'

以下のすべてのコマンドは Powershell を使用してください：

irm https://claude.ai/install.ps1 | iex

環境変数を設定する

を設定してください ANTHROPIC_BASE_URL Claude Code をローカルの llama.cpp サーバーにリダイレクトするための環境変数：

$env:ANTHROPIC_BASE_URL="http://localhost:8001"

セッションと永続化： 上のコマンドは現在のターミナルにのみ適用されます。新しいターミナルでも有効にするには：

実行 setx ANTHROPIC_BASE_URL "http://localhost:8001" 一度だけ、または次の $env: の行をあなたの $PROFILE.

🌟Linux / Mac / Windows でローカルに Claude Code を実行する

プロジェクトフォルダへ移動してください（mkdir project ; cd project）そして次を実行：

claude --model unsloth/GLM-4.7-Flash

Claude Code を承認なしでコマンド実行するよう設定するには次を実行します （注意：これにより Claude Code は承認なしに好きなようにコードを実行・実行指示するようになります！）

claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions

シンプルな Unsloth ファインチューニングをインストールして実行するためのこのプロンプトを試してください：

あなたはcwdのproject/内でのみ作業できます。CLAUDE.mdを探さないでください—これがそれです。uvを使った仮想環境経由でUnslothをインストールしてください。方法は https://unsloth.ai/docs/get-started/install/pip-install を参照してください（取得して読んでください）。その後、https://github.com/unslothai/unsloth に記載の簡単なUnslothファインチューニング実行を行ってください。GPUは1台利用可能です。

しばらく待つと、Unslothはuv経由でvenvにインストールされ、ロードされます：

そして最終的にUnslothで正常にファインチューニングされたモデルが表示されます！

IDE拡張（VS Code / Cursor）

公式拡張機能を使えば、エディタ内で直接Claude Codeを利用することもできます：

あるいは、を押して Ctrl+Shift+X （Windows/Linux）または Cmd+Shift+X （Mac）を押し、検索して Claude Codeをクリックしてください インストールしてください.

👾 OpenAI Codex CLI チュートリアル

Codex はOpenAIの公式コーディングエージェントで、ローカルで動作します。ChatGPT向けに設計されていますが、カスタムAPIエンドポイントをサポートしているためローカルLLMに最適です。参照してください https://developers.openai.com/codex/windows/ Windowsへのインストールについては上を参照してください—WSLを使うのが最良です。

インストールしてください

Mac（Homebrew）：

brew install --cask codex

Linux向け（NPM）ユニバーサル

apt update
apt install nodejs npm -y
npm install -g @openai/codex

環境変数を設定する

初回実行 codex でログインおよびセットアップを行い、その後設定ファイルを作成または編集してください： ~/.codex/config.toml （Mac/Linux）または %USERPROFILE%\.codex\config.toml （Windows）。

使用する cat > ~/.codex/config.toml （Linux / Mac 用）：

[model_providers.llama_cpp]
name = "llama_cpp API"
base_url = "http://localhost:8001/v1"
wire_api = "responses"
stream_idle_timeout_ms = 10000000

プロジェクトフォルダへ移動してください（mkdir project ; cd project）そして次を実行：

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search

あるいは任意のコードの実行を許可するには。 （注意：これにより Codex は承認なしに好きなようにコードを実行・実行指示するようになります！）

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search --dangerously-bypass-approvals-and-sandbox

すると以下が表示されます：

OpenAI の Codex は wire_api = "chat" のサポートを取り除いているようです—2026年1月29日時点ではまだ動作します。我々はに切り替えるべきですが wire_api = "responses" しかし次のエラーが出続けます： {"error":{"code":400,"message":"'type' of tool must be 'function'","type":"invalid_request_error"}}

シンプルな Unsloth ファインチューニングをインストールして実行するためのこのプロンプトを試してください：

あなたはcwdのproject/内でのみ作業できます。AGENTS.mdを探さないでください—これがそれです。uvを使った仮想環境経由でUnslothをインストールしてください。方法は https://unsloth.ai/docs/get-started/install/pip-install を参照してください（取得して読んでください）。その後、https://github.com/unslothai/unsloth に記載の簡単なUnslothファインチューニング実行を行ってください。GPUは1台利用可能です。

そして次のように表示されます：

そしてもう少し待つと、ついに以下が得られます：

前へQwQ-32B 次へ推論 & デプロイ

最終更新 1 日前

役に立ちましたか？

hashtag📖 ステップ #1: Llama.cpp のインストール チュートリアル

hashtagモデルをダウンロードしてローカルで使用する

hashtagLlama サーバーを起動する

hashtag👾 Claude Code チュートリアル

hashtagClaude Code をインストールしてローカルで実行する

hashtag🌟Linux / Mac / Windows でローカルに Claude Code を実行する

hashtag👾 OpenAI Codex CLI チュートリアル

hashtagインストールしてください

📖 ステップ #1: Llama.cpp のインストールチュートリアル

モデルをダウンロードしてローカルで使用する

Llama サーバーを起動する

👾 Claude Code チュートリアル

Claude Code をインストールしてローカルで実行する

🌟Linux / Mac / Windows でローカルに Claude Code を実行する

👾 OpenAI Codex CLI チュートリアル

インストールしてください