Claude Code と OpenAI Codex でローカル LLM を実行する方法
Claude Code と OpenAI Codex をローカルデバイスで実行するガイド。
📖 ステップ #1: Llama.cpp のインストール チュートリアル
1
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2
モデルをダウンロードしてローカルで使用する
# !pip install huggingface_hub hf_transfer
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
repo_id = "unsloth/GLM-4.7-Flash-GGUF",
local_dir = "unsloth/GLM-4.7-Flash-GGUF",
allow_patterns = ["*UD-Q4_K_XL*"],
)
3
Llama サーバーを起動する
を使用します。新しいターミナル(tmuxなどを介して)で、次のようにモデルをデプロイします:
--alias "unsloth/GLM-4.7-Flash" \
--kv-unified \
--temp 1.0 \
--top-p 0.95 \
--min-p 0.01 \
--port 8001 \
--cache-type-k q8_0 --cache-type-v q8_0 \
--batch-size 4096 --ubatch-size 1024 \
--flash-attn on \
--ctx-size 131072
GLM-4.7-Flashの「thinking(思考)」を無効にすることも可能で、エージェント型のコーディング作業においてパフォーマンスが向上することがあります。llama.cppでthinkingを無効にするには、llama-serverコマンドに次を追加してください:Claude CodeはAnthropicのエージェント型コーディングツールで、ターミナル上で動作し、コードベースを理解し、自然言語で複雑なGitワークフローを処理します。
Mac / Linux セットアップ
# または Homebrew 経由: brew install --cask claude-code
を設定するサーバーによっては次を設定する必要がある場合がありますセッション vs 永続設定:$env:ANTHROPIC_BASE_URL="http://localhost:8001"次を実行してください🌟Linux / Mac / WindowsでClaude Codeをローカル実行する




👾 OpenAI Codex CLI チュートリアル
をインストール



最終更新
役に立ちましたか?


