Claude Code を使ったローカル LLM の実行方法
ローカルデバイスで Claude Code とオープンモデルを使うためのガイド。
📖 LLM セットアップチュートリアル
Qwen3.5 チュートリアル
1
llama.cpp のインストール
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
モデルをローカルにダウンロードして使用する
2
3
Llama-server の起動
(llama.cppではデフォルトで有効になっている場合があります)は使用しないでください。なおbf16 KVキャッシュは一部のマシンでやや遅くなる可能性があります。
./llama.cpp/llama-server \
--model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
--alias "unsloth/Qwen3.5-35B-A3B" \
--temp 0.6 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.00 \
--port 8001 \
--kv-unified \
--cache-type-k q8_0 --cache-type-v q8_0 \
--flash-attn on --fit on \GLM-4.7-Flash チュートリアル
1
llama.cpp のインストール
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
モデルをローカルにダウンロードして使用する
2
3
Llama-server の起動
(llama.cppではデフォルトで有効になっている場合があります)は使用しないでください。なおbf16 KVキャッシュは一部のマシンでやや遅くなる可能性があります。
bf16
を使用できますが、VRAM使用量が約2倍に増えます:
--model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
--temp 0.6 \
--alias "unsloth/GLM-4.7-Flash" \
--min-p 0.00 \
--port 8001 \
--kv-unified \
--cache-type-k q8_0 --cache-type-v q8_0 \
--temp 1.0 \
--min-p 0.01 \ Claude Code チュートリアル
Claude Codeをインストールした後、KVキャッシュの無効化によってオープンモデルが90%遅くなる問題を修正する手順を実行してください。
🕵️$env:
🌟"effortLevel" : "high"




最終更新
役に立ちましたか?





