comment-dots如何使用 Unsloth Studio 运行模型

使用 Unsloth Studio 在本地运行 AI 模型、LLM 和 GGUF。

Unsloth 工作室 允许您在计算机上 100% 离线运行 AI 模型。运行来自 Hugging Face 的 GGUF、safetensors 等模型格式,或使用本地文件。

  • 适用于所有 MacOS、CPU、Windows、Linux、WSL 设置!无需 GPU

  • 搜索 + 下载 + 运行 任何模型,如 GGUF、LoRA 适配器、safetensors 等。

  • 比较 并排比较两个不同模型的输出

  • 自愈式工具调用 / 网络搜索, 代码执行 并调用兼容 OpenAI 的 API

  • 自动推理参数 调优(temperature、top-p 等)并编辑聊天模板

  • 上传图片、音频、PDF、代码、DOCX 及更多文件类型与模型对话。

使用 Unsloth Studio 聊天

搜索并运行模型

您可以通过 Hugging Face 搜索并下载任何模型,或使用本地文件。

Studio 支持广泛的模型类型,包括 GGUF、视觉-语言和文本到语音模型。运行最新模型,如 Qwen3.5 或 NVIDIA Nemotron 3.

上传图片、音频、PDF、代码、DOCX 及更多文件类型与模型对话。

circle-check

代码执行

将 Unsloth Studio 转变为您自己的主动助手。Studio 允许大型语言模型运行 Bash、Python 等代码,而不仅仅是 Javascript,并在沙箱中运行程序,因此它可以进行计算、分析数据、测试代码、生成文件或通过实际计算验证答案。

这使模型的回答更可靠、更准确。

自动修复工具调用

Unsloth Studio 不仅允许工具调用和网络搜索,还会自动修复模型可能出现的任何错误。

这意味着您将始终获得推理输出 没有 中断的工具调用。

自动参数调优

推理参数如 temperature(温度), top-p, top-k 会为像 Qwen3.5 这样的新模型自动预设,以便您在不担心设置的情况下获得最佳输出。

您也可以手动调整参数并编辑系统提示以控制模型行为。

聊天工作区

输入提示,附加任何文档、图像(webp、png)、代码文件、txt 或音频作为附加上下文,并实时查看模型的响应。

切换开关:思考 + 网络搜索。

模型竞技场

Studio Chat 让您使用相同的提示并排比较任意两个模型。例如比较基础模型和 LoRa 适配器。推理将先为一个模型加载,然后为第二个模型加载(并行推理正在开发中)。

训练后,您可以使用相同的提示并排比较基础模型和微调模型,以查看发生了哪些变化以及结果是否改进。

此工作流程使您可以轻松查看微调如何改变模型的响应以及是否在您的用例中改进了结果。

将文件作为上下文添加

Studio Chat 在对话中直接支持多模态输入。您可以附加文档、图像或音频作为提示的附加上下文。

这使得测试模型如何处理现实世界输入(如 PDF、截图或参考资料)变得容易。文件在本地处理并作为模型的上下文被包含。

使用旧的 / 现有的 GGUF 模型

是的,您可以使用之前从 Hugging Face 等下载的已有或旧模型或 GGUF。Unsloth Studio 会自动检测已下载到您 Hugging Face Hub 缓存的模型, (C:\Users{your_username}\.cache\huggingface\hub)。如果您是通过 LM Studio 下载的 GGUF 模型,请注意这些存储在 C:\Users{your_username}\.cache\lm-studio\models 中,默认情况下 llama.cpp 无法看到——您需要将那些 .gguf 文件移动或复制到您的 Hugging Face Hub 缓存目录(或 llama.cpp 可访问的其他路径),以便 Unsloth Studio 加载它们。

在 Studio 中微调模型或适配器后,您可以将其导出为 GGUF 并使用 llama.cpp 直接在 Studio Chat 中进行本地推理。Unsloth Studio 由 llama.cpp 和 Hugging Face 提供支持。

本地 GGUF 推理

GGUF 模型在 Studio Chat 中运行就像任何其他模型一样,使用相同的界面和生成设置。

可以根据系统的内存需求选择不同的量化变体。

circle-check

最后更新于

这有帮助吗?