了解如何保存您微调后的模型,以便在您喜欢的推理引擎中运行它。
您也可以使用以下方式运行微调后的模型: Unsloth 的 2 倍更快推理.
llama.cpp - 保存为 GGUF
vLLM
Ollama
LM Studio
SGLang
Unsloth 推理
故障排除
llama-server 与 OpenAI 端点
vLLM 引擎参数
LoRA 热插拔
工具调用
最后更新于19天前
这有帮助吗?