codeClaude Code & OpenAI Codex を使ったローカル LLM 実行方法

Claude Code と OpenAI Codex をローカルデバイスで実行するガイド。

このステップバイステップガイドでは、オープンなLLMをClaude CodeやCodexに完全にローカルで接続する方法をスクリーンショット付きで説明します。DeepSeek、Qwen、Gemmaなど任意のオープンモデルで実行できます。

このチュートリアルでは、 GLM-4.7-Flashを使用します。これは、2026年1月時点で最も強力な30B MoEのエージェント型およびコーディングモデルで、を用いてLLMを自律的に微調整します。 Unslotharrow-up-rightに差し替えることもできます。 他のモデルなら何でも、スクリプト内のモデル名を更新するだけです。

Claude Code チュートリアルOpenAI Codex チュートリアル

我々は llama.cpparrow-up-right を使用します。これはMac、Linux、Windows等のデバイスでLLMを実行するためのオープンソースフレームワークです。Llama.cppには llama-server が含まれており、LLMを効率的にサーブおよびデプロイすることが可能です。モデルはポート8001で提供され、すべてのエージェントツールは単一のOpenAI互換エンドポイントを通じてルーティングされます。

モデルの量子化については、Unslothを利用します ダイナミックGGUF で任意のLLMを量子化して実行し、できるだけ精度を保ちます。

📖 ステップ #1: Llama.cpp のインストール チュートリアル

1

をインストールする必要があります llama.cpp をデプロイ/サーブしてCodexなどでローカルLLMを使用するためです。正しいGPUバインディングと最大性能のために公式のビルド手順に従います。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

モデルをダウンロードしてローカルで使用する

モデルをダウンロードするには huggingface_hub (を介してインストールした後)のPythonで使用します)。我々は pip install huggingface_hub hf_transfer量子化を、サイズと精度のバランスが最良の UD-Q4_K_XL を使用します。すべてのUnsloth GGUFアップロードは我々の コレクションはこちら.

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Llama サーバーを起動する

エージェントワークロード向けにGLM-4.7-Flashをデプロイするために我々は llama-serverを使用します。我々はZ.ai推奨のサンプリングパラメータ(temp 1.0, top_p 0.95)を適用し、ツール呼び出しのサポートのために --jinja を有効にします。

このコマンドを新しいターミナルで実行してください(を使用するか新しいターミナルを開いてください)。以下は tmux 新しいターミナルに収まるはずです 24GB GPU(RTX 4090)にちょうど収まる(23GBを使用) --fit on も自動でオフロードしますが、パフォーマンスが悪い場合はを減らしてください 会話モードでモデルを実行し、任意のプロンプトを試してください。 を使用しました --cache-type-k q8_0 --cache-type-v q8_0 はVRAM使用量を削減するためのKVキャッシュ量子化に使用します。

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

👾 Claude Code チュートリアル

Claude CodeはAnthropicのエージェント型コーディングツールで、ターミナル上で動作し、コードベースを理解し、自然言語で複雑なGitワークフローを処理します。

Claude Code をインストールしてローカルで実行する

curl -fsSL https://claude.ai/install.sh | bash
# または Homebrew 経由: brew install --cask claude-code

環境変数を設定する

を設定してください ANTHROPIC_BASE_URL Claude Code をローカルの llama.cpp サーバーにリダイレクトするための環境変数:

export ANTHROPIC_BASE_URL="http://localhost:8001"

また、サーバーによっては以下を設定する必要があるかもしれません ANTHROPIC_API_KEY 例えば以下のように:

export ANTHROPIC_API_KEY='sk-no-key-required' ## または 'sk-1234'

セッションと永続化: 上のコマンドは現在のターミナルにのみ適用されます。新しいターミナルでも有効にするには:

を追加してください export の行を ~/.bashrc (bash) または ~/.zshrc (zsh) に追加します。

もし次のように表示されたら API に接続できません(ConnectionRefused) の場合は、をアンセットするのを忘れないでください ANTHROPIC_BASE_URL 経由 unset ANTHROPIC_BASE_URL

APIキーがありません

これが表示されたら、を設定してください export ANTHROPIC_API_KEY='sk-no-key-required' ## または 'sk-1234'

🌟Linux / Mac / Windows でローカルに Claude Code を実行する

circle-check

プロジェクトフォルダへ移動してください(mkdir project ; cd project)そして次を実行:

Claude Code を承認なしでコマンド実行するよう設定するには次を実行します (注意:これにより Claude Code は承認なしに好きなようにコードを実行・実行指示するようになります!)

シンプルな Unsloth ファインチューニングをインストールして実行するためのこのプロンプトを試してください:

しばらく待つと、Unslothはuv経由でvenvにインストールされ、ロードされます:

そして最終的にUnslothで正常にファインチューニングされたモデルが表示されます!

IDE拡張(VS Code / Cursor)

公式拡張機能を使えば、エディタ内で直接Claude Codeを利用することもできます:

あるいは、を押して Ctrl+Shift+X (Windows/Linux)または Cmd+Shift+X (Mac)を押し、検索して Claude Codeをクリックしてください インストールしてください.

もし次のように表示されたら API に接続できません(ConnectionRefused) の場合は、をアンセットするのを忘れないでください ANTHROPIC_BASE_URL 経由 unset ANTHROPIC_BASE_URL

👾 OpenAI Codex CLI チュートリアル

Codex arrow-up-rightはOpenAIの公式コーディングエージェントで、ローカルで動作します。ChatGPT向けに設計されていますが、カスタムAPIエンドポイントをサポートしているためローカルLLMに最適です。参照してください https://developers.openai.com/codex/windows/arrow-up-right Windowsへのインストールについては上を参照してください—WSLを使うのが最良です。

インストールしてください

Mac(Homebrew):

Linux向け(NPM)ユニバーサル

環境変数を設定する

初回実行 codex でログインおよびセットアップを行い、その後設定ファイルを作成または編集してください: ~/.codex/config.toml (Mac/Linux)または %USERPROFILE%\.codex\config.toml (Windows)。

使用する cat > ~/.codex/config.toml (Linux / Mac 用):

プロジェクトフォルダへ移動してください(mkdir project ; cd project)そして次を実行:

あるいは任意のコードの実行を許可するには。 (注意:これにより Codex は承認なしに好きなようにコードを実行・実行指示するようになります!)

すると以下が表示されます:

circle-exclamation

シンプルな Unsloth ファインチューニングをインストールして実行するためのこのプロンプトを試してください:

そして次のように表示されます:

そしてもう少し待つと、ついに以下が得られます:

最終更新

役に立ちましたか?