Décodage spéculatif

Décodage spéculatif avec llama-server, llama.cpp, vLLM et plus pour une inférence 2x plus rapide

🦙Décodage spéculatif dans llama.cpp, llama-server

Le décodage spéculatif dans llama.cpp peut être facilement activé via llama-cli et llama-server via le --model-draft argument. Notez que vous devez avoir un modèle brouillon, qui est généralement un modèle plus petit, mais il doit avoir le même tokenizer

Décodage spéculatif pour GLM 4.7

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Peut parfois limiter les requêtes, donc mettez à 0 pour désactiver
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/GLM-4.7-GGUF",
    local_dir = "unsloth/GLM-4.7-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"], # Dynamic 2bit Utilisez "*UD-TQ1_0*" pour le 1bit dynamique
)
snapshot_download(
    repo_id = "unsloth/GLM-4.5-Air-GGUF",
    local_dir = "unsloth/GLM-4.5-Air-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"], # 4 bits dynamiques. Utilisez "*UD-TQ1_0*" pour 1 bit dynamique
)
./llama.cpp/llama-cli \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --threads -1 \
    --fit on \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --jinja

Mis à jour

Ce contenu vous a-t-il été utile ?