claudeClaude Code を使ったローカル LLM の実行方法

ローカルデバイスで Claude Code とオープンモデルを使うためのガイド。

このステップバイステップガイドでは、オープンなLLMやAPIを完全にローカルでClaude Codeに接続する方法を、スクリーンショット付きで示します。Qwen3.5、DeepSeek、Gemmaなどの任意のオープンモデルで実行できます。

このチュートリアルでは、 Qwen3.5 および GLM-4.7-Flashを使用します。どちらも2026年3月時点で最も強力な35BのMoEエージェント的およびコーディングモデルで(24GB RAM/統合メモリのデバイスでも非常に良好に動作します)、Unslothを用いてLLMを自律的にファインチューニングするのに適しています。 Unslotharrow-up-rightを差し替えることができます、 任意の他のモデルに。ただしスクリプト内のモデル名を更新してください。

Qwen3.5 チュートリアルGLM-4.7-Flash チュートリアルclaudeClaude Code チュートリアル

モデルの量子化については、Unslothの Dynamic GGUFs を利用して、可能な限り精度を維持したまま任意のLLMを量子化して実行します。

circle-info

Claude Codeは2026年1月以降かなり変更されており、切り替える必要のある設定や必要な機能が増えています。

📖 LLM セットアップチュートリアル

始める前に、まず使用する特定のモデルのセットアップを完了する必要があります。ここでは llama.cpp を使用します。これはMac、Linux、WindowsなどのデバイスでLLMを実行するためのオープンソースフレームワークです。llama.cppには llama-server が含まれており、LLMを効率的にサーブおよびデプロイすることができます。モデルはポート8001で提供され、すべてのエージェントツールは単一のOpenAI互換エンドポイント経由でルーティングされます。

Qwen3.5 チュートリアル

以下を使用します Qwen3.5 -35B-A3B と、高速で正確なコーディングタスク向けの特定設定です。もしVRAMが不足していて より賢い モデルが欲しい場合、 Qwen3.5-27B は素晴らしい選択ですが、約2倍遅くなります。あるいは9B、4B、2Bといった他のQwen3.5バリアントを使用できます。

circle-info

VRAMが十分でない場合や より賢い モデルが欲しい場合はQwen3.5-27Bを使ってください。ただし35B-A3Bより約2倍遅くなります。あるいは Qwen3-Coder-Next を使用すると、十分なVRAMがある場合に非常に優れています。

1

llama.cpp のインストール

ローカルでLLMをデプロイ/サーブしてClaude Codeなどで使用するために、以下をインストールする必要があります llama.cpp 。正しいGPUバインディングと最大のパフォーマンスのために公式のビルド手順に従います。GPUがないかCPU推論を希望する場合は、 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。 AppleのMac / Metalデバイスの場合は、次を設定してから通常通り続行してください - Metalサポートはデフォルトで有効です。 -DGGML_CUDA=OFF apt-get update

apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
    cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
モデルをローカルにダウンロードして使用する
2

モデルはPythonの

huggingface_hub を介してダウンロードします(事前に pip install huggingface_hub hf_transfer をインストールしてください)。サイズと精度のバランスが良い量子化としてUD-Q4_K_XL を使用します。UnslothのGGUFアップロードは当方の コレクションにあります 。ダウンロードが止まる場合は以下を参照してくださいhf download unsloth/Qwen3.5-35B-A3B-GGUF \ Hugging Face Hub、XET デバッグ

--local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Dynamic 2bitの場合は"*UD-Q2_K_XL*"を使用
    当方では
circle-check
3

Llama-server の起動

エージェントワークロード向けにQwen3.5をデプロイするために、我々は llama-serverを使用します。以下のようにQwen推奨のサンプリングパラメータを 思考モード用に適用します: temp 0.6 top_p 0.95, top-k 20 , 。非思考モードや他のタスクを使用する場合はこれらの数値が変わることに注意してください。新しいターミナルでこのコマンドを実行してください(

tmux を使うか新しいターミナルを開いてください)。以下は 24GB GPU(RTX 4090)にちょうど収まるはずです(23GBを使用します) --fit on は自動オフロードも行いますが、パフォーマンスが悪い場合は --ctx-size を減らしてください。 .

triangle-exclamation
(llama.cppではデフォルトで有効になっている場合があります)は使用しないでください。なおbf16 KVキャッシュは一部のマシンでやや遅くなる可能性があります。
    ./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
circle-check

GLM-4.7-Flash チュートリアル

1

llama.cpp のインストール

ローカルでLLMをデプロイ/サーブしてClaude Codeなどで使用するために、以下をインストールする必要があります llama.cpp 。正しいGPUバインディングと最大のパフォーマンスのために公式のビルド手順に従います。GPUがないかCPU推論を希望する場合は、 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。 AppleのMac / Metalデバイスの場合は、次を設定してから通常通り続行してください - Metalサポートはデフォルトで有効です。 -DGGML_CUDA=OFF apt-get update

apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
    cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
モデルをローカルにダウンロードして使用する
2

モデルはPythonの

huggingface_hub を介してダウンロードします(事前に pip install huggingface_hub hf_transfer をインストールしてください)。サイズと精度のバランスが良い量子化としてUD-Q4_K_XL を使用します。UnslothのGGUFアップロードは当方の コレクションにあります 。ダウンロードが止まる場合は以下を参照してくださいhf download unsloth/Qwen3.5-35B-A3B-GGUF \ Hugging Face Hub、XET デバッグ

circle-check
のようなものも使用可能です - 参照:
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

from huggingface_hub import snapshot_download
    snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
)
3

Llama-server の起動

allow_patterns = ["*UD-Q4_K_XL*"], llama-serverGLM-4.7-Flashをエージェントワークロード向けにデプロイするには、我々はを使用します。Z.ai推奨のサンプリングパラメータ(, top-k 20).

tmux を使うか新しいターミナルを開いてください)。以下は 24GB GPU(RTX 4090)にちょうど収まるはずです(23GBを使用します) --fit on は自動オフロードも行いますが、パフォーマンスが悪い場合は --ctx-size を減らしてください。 .

triangle-exclamation
(llama.cppではデフォルトで有効になっている場合があります)は使用しないでください。なおbf16 KVキャッシュは一部のマシンでやや遅くなる可能性があります。
    bf16
    を使用できますが、VRAM使用量が約2倍に増えます:
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --temp 0.6 \
    --alias "unsloth/GLM-4.7-Flash" \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --temp 1.0 \
    --min-p 0.01 \
circle-check

claude Claude Code チュートリアル

triangle-exclamation

参照:

Claude Codeをインストールした後、KVキャッシュの無効化によってオープンモデルが90%遅くなる問題を修正する手順を実行してください。

curl -fsSL https://claude.ai/install.sh | bash

# または Homebrew 経由: brew install --cask claude-code 設定 Claude Code をローカルの llama.cpp サーバーにリダイレクトするために、

環境変数を設定します。 export ANTHROPIC_BASE_URL="http://localhost:8001" また、サーバーによっては

を設定する必要がある場合があります。例: export ANTHROPIC_API_KEY='sk-no-key-required' ## または 'sk-1234'

セッション対永続設定: 上記のコマンドは現在のターミナルにのみ適用されます。新しいターミナルでも持続させるには: 次の export 行を ~/.bashrc (bash) または

circle-exclamation

次のコマンドで:

unset ANTHROPIC_BASE_URL ANTHROPIC_API_KEY

circle-info

Missing API key このメッセージが表示された場合は、次を設定してください および もしClaude Codeが初回実行時にサインインを求め続ける場合は、次を追加してください:"hasCompletedOnboarding": true"primaryApiKey": "sk-dummy-key" ~/.claude.json に保存します。VS Code拡張機能の場合は、設定で Disable Login Promptを有効にするか(または次を追加してください)).

🕵️$env:

triangle-exclamation

Claude Codeでの90%遅い推論を修正する を参照してください。 Claude Codeは最近Claude Code Attributionヘッダーを先頭に追加・付加するようになり、これが KVキャッシュを無効化し、ローカルモデルでの推論を90%遅くします。 詳細はこれを参照してください これを解決するために、次を編集して

circle-info

CLAUDE_CODE_ATTRIBUTION_HEADER を含め、"env"内でそれを0に設定してください。 export CLAUDE_CODE_ATTRIBUTION_HEADER=0 を使用しても

動作しません! 例えば次を実行してください cat > ~/.claude/settings.json を参照してください。 そして以下を追加します(貼り付けたら保存するためにENTERの後にCTRL+Dを押してください)。既存の ファイルがある場合は、"env"セクションに "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"

🌟"effortLevel" : "high"

circle-check
triangle-exclamation

まずKVキャッシュ無効化によってオープンモデルが90%遅くなる問題を修正してください。プロジェクトフォルダに移動します(mkdir project ; cd project

claude --model unsloth/GLM-4.7-Flash

claude --model unsloth/Qwen3.5-35B-A3B Claude Code にコマンドを承認なしで実行させるには次を行います(注意:これによりClaude Codeが承認なしに自由にコードを実行するようになります!)

次のプロンプトを試して、簡単なUnslothのファインチューニングをインストールして実行してください:

少し待つと、Unslothがuv経由でvenvにインストールされ、ロードされます:

そして最終的にUnslothで正常にファインチューニングされたモデルが表示されます!

IDE拡張(VS Code / Cursor)

公式拡張を使ってエディタ内で直接Claude Codeを使用することもできます:

あるいは、次を押してください Ctrl+Shift+X (Windows/Linux)または Cmd+Shift+X (Mac)、そして検索ボックスに Claude Codeと入力し、 インストール.

circle-exclamation
triangle-exclamation

最終更新

役に立ちましたか?