claudeClaude Code を使ったローカル LLM の実行方法

Open モデルをローカルで Claude Code と一緒に使用するためのガイド。

このステップバイステップガイドでは、オープンなLLMやAPIを完全にローカルでClaude Codeに接続する方法をスクリーンショット付きで示します。DeepSeek、Qwen、Gemmaなどの任意のオープンモデルで実行できます。

このチュートリアルでは、 GLM-4.7-Flash(2026年1月時点で最も強力な30B MoEのエージェント&コーディングモデル、24GBのRAM/統一メモリデバイスでうまく動作します)を使用して、UnslothでLLMを自律的に微調整します。 Unslotharrow-up-rightに差し替えることもできます。 任意の他のモデルを使用できます。スクリプト内のモデル名を更新してください。

claudeClaude Code チュートリアル

我々は llama.cpp を使用します。これはMac、Linux、WindowsなどのデバイスでLLMを実行するためのオープンソースフレームワークです。llama.cppには llama-server が含まれており、LLMを効率的にサーブおよびデプロイできます。モデルはポート8001でサーブされ、すべてのエージェントツールは単一のOpenAI互換エンドポイントを通してルーティングされます。

モデルの量子化については、我々はUnslothの Dynamic GGUFs を利用して、可能な限り精度を保ちながら任意のLLMを量子化して実行します。

📖 #1: セットアップチュートリアル

1

llama.cpp をインストール

ローカルのLLMをデプロイ/サーブしてClaude Codeなどで使用するために、 llama.cpp をインストールする必要があります。正しいGPUバインディングと最大のパフォーマンスのために公式ビルド手順に従います。GPUがないかCPU推論のみを行いたい場合は、 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

モデルをダウンロードしてローカルで使用

モデルをダウンロードするには huggingface_hub をPythonで使います(次をインストールした後: pip install huggingface_hub hf_transfer)。我々はサイズ/精度のバランスに優れた UD-Q4_K_XL 量子化を使用します。すべてのUnsloth GGUFアップロードは我々の コレクションはこちらで見つかります。ダウンロードが止まる場合は、参照してください。 Hugging Face Hub、XET デバッグ

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Llama-server を起動

エージェントワークロード向けに GLM-4.7-Flash をデプロイするために、我々は llama-serverを使用します。Z.ai の推奨サンプリングパラメータ(temp 1.0, top_p 0.95)を適用し、適切なツール呼び出しサポートのために --jinja を有効にします。

新しいターミナルでこのコマンドを実行してください( tmux を使うか新しいターミナルを開いてください)。以下は 24GBのGPU(RTX 4090)にちょうど収まるはずです(23GBを使用) --fit on は自動的にオフロードも行いますが、パフォーマンスが悪い場合は --ctx-size を減らしてください。我々は --cache-type-k q8_0 --cache-type-v q8_0 をKVキャッシュ量子化に使用してVRAM使用量を削減しました。

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

claude Claude Code チュートリアル

Claude CodeはAnthropicのエージェント型コーディングツールで、ターミナル上で動作し、コードベースを理解し、自然言語を通じて複雑なGitワークフローを処理します。

Claude Code をインストールしてローカルで実行

curl -fsSL https://claude.ai/install.sh | bash
# または Homebrew 経由: brew install --cask claude-code

設定

環境変数 ANTHROPIC_BASE_URL を設定してClaude Codeをローカルの llama.cpp サーバーにリダイレクトします:

export ANTHROPIC_BASE_URL="http://localhost:8001"

また、サーバーによっては ANTHROPIC_API_KEY を設定する必要があるかもしれません。例えば:

export ANTHROPIC_API_KEY='sk-no-key-required' ## または 'sk-1234'

セッションと永続設定: 上記のコマンドは現在のターミナルにのみ適用されます。新しいターミナルでも持続させるには:

次の export 行を ~/.bashrc (bash)または ~/.zshrc (zsh)に追加してください。

もし次のような表示が出たら Unable to connect to API (ConnectionRefused) 、「を解除する」ことを忘れないでください ANTHROPIC_BASE_URL via unset ANTHROPIC_BASE_URL

APIキーがありません

このメッセージが表示されたら、次を設定してください export ANTHROPIC_API_KEY='sk-no-key-required' ## または 'sk-1234'

🌟Linux / Mac / Windows で Claude Code をローカル実行

circle-check

プロジェクトフォルダに移動(mkdir project ; cd project)して次を実行:

Claude Code に承認なしでコマンドを実行させるには次を行います (注意:これにより Claude Code は承認なしに好きなように操作・コード実行を行うようになります!)

シンプルな Unsloth 微調整をインストールして実行するためのプロンプト例:

少し待つと、Unsloth は uv 経由で venv にインストールされ、読み込まれます:

そして最終的に Unsloth で正常に微調整されたモデルが表示されます!

IDE拡張(VS Code / Cursor)

公式拡張を使えばエディタ内で直接 Claude Code を利用することもできます:

あるいは、次を押して Ctrl+Shift+X (Windows/Linux)または Cmd+Shift+X (Mac)を押して、 Claude Codeを検索し、 インストール.

もし次のような表示が出たら Unable to connect to API (ConnectionRefused) 、「を解除する」ことを忘れないでください ANTHROPIC_BASE_URL via unset ANTHROPIC_BASE_URL

最終更新

役に立ちましたか?