投機的デコーディング

llama-server、llama.cpp、vLLM などを使った投機的デコーディングで推論を 2 倍高速化

🦙llama.cpp、llama-server における投機的デコーディング

llama.cpp での投機的デコーディングは、次の方法で簡単に有効にできます llama-cli および llama-server 経由で --model-draft 引数。ドラフトモデルが必要であることに注意してください。通常は小さいモデルですが、トークナイザーは同じでなければなりません

GLM 4.7 向けの Spec デコーディング

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 時々レート制限されることがあるため、無効にするには0に設定
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/GLM-4.7-GGUF",
    local_dir = "unsloth/GLM-4.7-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"], # 動的2ビットには "*UD-TQ1_0*" ではなくこちらを使用
)
snapshot_download(
    repo_id = "unsloth/GLM-4.5-Air-GGUF",
    local_dir = "unsloth/GLM-4.5-Air-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"], # 動的 4bit。動的 1bit の場合は "*UD-TQ1_0*" を使用
)

./llama.cpp/llama-cli \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --threads -1 \\
    --fit on \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --jinja

./llama.cpp/llama-cli \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --model-draft unsloth/GLM-4.5-Air-GGUF/UD-Q4_K_XL/GLM-4.5-Air-UD-Q4_K_XL-00001-of-00002.gguf \
    --threads -1 \\
    --fit on \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --ctx-size-draft 16384 \
    --jinja \
    --device CUDA0 \
    --device-draft CUDA0,CUDA1

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --alias "unsloth/GLM-4.7" \
    --threads -1 \\
    --fit on \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

前へGGUF & llama.cpp 次へvLLM

最終更新 1 か月前

役に立ちましたか？

hashtag🦙llama.cpp、llama-server における投機的デコーディング

hashtagGLM 4.7 向けの Spec デコーディング

🦙llama.cpp、llama-server における投機的デコーディング

GLM 4.7 向けの Spec デコーディング