投机性解码

使用 llama-server、llama.cpp、vLLM 等进行投机性解码，实现 2 倍更快的推理

🦙llama.cpp、llama-server 中的投机性解码

可以通过以下方式在 llama.cpp 中轻松启用投机性解码 llama-cli 和 llama-server 通过 --model-draft 参数。注意您必须有一个草稿模型，通常是一个较小的模型，但它必须使用相同的分词器

GLM 4.7 的投机性解码

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 有时会限流，因此设置为 0 以禁用
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/GLM-4.7-GGUF",
    local_dir = "unsloth/GLM-4.7-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"], # 动态 2 位。对于动态 1 位使用 "*UD-TQ1_0*"
)
snapshot_download(
    repo_id = "unsloth/GLM-4.5-Air-GGUF",
    local_dir = "unsloth/GLM-4.5-Air-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"], # 动态 4 位。对于动态 1 位使用 "*UD-TQ1_0*"
)

./llama.cpp/llama-cli \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --threads -1 \
    --fit on \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --jinja

./llama.cpp/llama-cli \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --model-draft unsloth/GLM-4.5-Air-GGUF/UD-Q4_K_XL/GLM-4.5-Air-UD-Q4_K_XL-00001-of-00002.gguf \
    --threads -1 \
    --fit on \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --ctx-size-draft 16384 \
    --jinja \
    --device CUDA0 \
    --device-draft CUDA0,CUDA1

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --alias "unsloth/GLM-4.7" \
    --threads -1 \
    --fit on \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

上一页llama-server & OpenAI endpoint 下一页推理故障排除

最后更新于1个月前

这有帮助吗？

hashtag🦙llama.cpp、llama-server 中的投机性解码

hashtagGLM 4.7 的投机性解码

🦙llama.cpp、llama-server 中的投机性解码

GLM 4.7 的投机性解码