了解如何保存您微调后的模型,以便在您喜欢的推理引擎中运行。
您也可以通过使用来运行您微调的模型 Unsloth 的 2 倍更快推理.
llama.cpp - 保存为 GGUF
vLLM
Ollama
LM Studio
SGLang
Unsloth 推理
故障排除
llama-server 与 OpenAI 端点
工具调用
在手机上运行 LLM
最后更新于7小时前
这有帮助吗?