如何使用 Unsloth Studio 运行模型
使用 Unsloth Studio 在本地运行 AI 模型、LLM 和 GGUF。
Unsloth Studio 让你在电脑上实现 100% 离线运行 AI 模型。运行来自 Hugging Face 或本地文件的 GGUF、safetensors 等模型格式。
适用于所有 macOS、CPU、Windows、Linux、WSL 环境!无需 GPU
搜索 + 下载 + 运行 任何模型,如 GGUF、LoRA 适配器、safetensors 等。
比较 并排比较两个不同模型的输出
自动推理参数 调优(温度、top-p 等)并编辑对话模板
上传图片、音频、PDF、代码、DOCX 及更多文件类型以与之聊天。

使用 Unsloth Studio 聊天
搜索并运行模型
你可以通过 Hugging Face 搜索并下载任何模型,或使用本地文件。
Studio 支持多种模型类型,包括 GGUF、视觉-语言模型和文本到语音模型。运行最新模型,如 Qwen3.5 或 NVIDIA Nemotron 3.
上传图片、音频、PDF、代码、DOCX 及更多文件类型以与之聊天。

Unsloth Studio 聊天自动支持 用于推理的多 GPU 设置 。

模型竞技场
Studio Chat 允许你使用相同提示并排比较任意两个模型。例如比较基础模型与 LoRa 适配器。推理将先为一个模型加载,然后为第二个模型加载(并行推理正在开发中)。

训练后,你可以使用相同提示并排比较基础模型和微调后的模型,看看发生了哪些变化以及结果是否改善。
此工作流程可以轻松查看微调如何改变模型的响应,以及在你的使用场景中是否提高了结果。

将文件作为上下文添加
Studio Chat 支持在会话中直接使用多模态输入。你可以附加文档、图片或音频作为提示的额外上下文。

这使得测试模型如何处理真实世界输入(如 PDF、截图或参考资料)变得简单。文件在本地处理并作为模型的上下文包含在内。
使用旧的 / 现有的 GGUF 模型
是的,你可以使用之前从 Hugging Face 等下载的已有或旧模型或 GGUF。Unsloth Studio 会自动检测已下载到你的 Hugging Face Hub 缓存的模型 (C:\Users{your_username}.cache\huggingface\hub)。如果你通过 LM Studio 下载了 GGUF 模型,请注意这些模型存储在 C:\Users{your_username}.cache\lm-studio\models 中,默认情况下 llama.cpp 无法看到它们 —— 你需要将这些 .gguf 文件移动或复制到你的 Hugging Face Hub 缓存目录(或 llama.cpp 可访问的其他路径),以便 Unsloth Studio 加载它们。
在 Studio 中微调模型或适配器后,你可以将其导出为 GGUF 并使用 llama.cpp 直接在 Studio Chat 中运行本地推理。Unsloth Studio 由 llama.cpp 和 Hugging Face 提供支持。
最后更新于
这有帮助吗?




