学习如何保存你微调后的模型,以便在你喜欢的推理引擎中运行它。
您也可以使用以下方式运行您的微调模型: Unsloth 的 2 倍更快推理.
llama.cpp - 保存为 GGUF
vLLM
Ollama
LM Studio
SGLang
Unsloth 推理
故障排除
llama-server 与 OpenAI 端点
vLLM 引擎参数
LoRA 热插拔
工具调用
在手机上运行 LLM
最后更新于4天前
这有帮助吗?