Spekulatives Decoding
Spekulatives Decoding mit llama-server, llama.cpp, vLLM und mehr für 2x schnellere Inferenz
🦙Spekulatives Decoding in llama.cpp, llama-server
Spec Decoding für GLM 4.7
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal Ratenbegrenzungen auslösen, daher auf 0 setzen, um es zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
repo_id = "unsloth/GLM-4.7-GGUF",
local_dir = "unsloth/GLM-4.7-GGUF",
allow_patterns = ["*UD-Q2_K_XL*"], # Dynamisches 2-Bit Verwenden Sie "*UD-TQ1_0*" für dynamisches 1-Bit
)
snapshot_download(
repo_id = "unsloth/GLM-4.5-Air-GGUF",
local_dir = "unsloth/GLM-4.5-Air-GGUF",
allow_patterns = ["*UD-Q4_K_XL*"], # Dynamisches 4-Bit. Verwenden Sie "*UD-TQ1_0*" für dynamisches 1-Bit
)./llama.cpp/llama-cli \
--model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
--threads -1 \
--fit on \
--prio 3 \
--temp 1.0 \
--top-p 0.95 \
--ctx-size 16384 \
--jinja
Zuletzt aktualisiert
War das hilfreich?

