# 如何使用 Unsloth Studio 运行模型

[Unsloth Studio](https://unsloth.ai/docs/zh/xin-zeng/studio) 让你可以在电脑上 100% 离线运行 AI 模型。可运行 GGUF 和 safetensors 等模型格式，来源可以是 Hugging Face 或本地文件。

* **可在所有 MacOS、CPU、Windows、Linux、WSL 环境上运行！无需 GPU**
* **搜索 + 下载 + 运行** 任意模型，例如 GGUF、LoRA 适配器、safetensors 等。
* [**比较**](#model-arena) 两个不同模型的输出并排显示
* [**自我修复工具调用**](#auto-healing-tool-calling) / 网页搜索， [**代码执行**](#code-execution) 并调用与 OpenAI 兼容的 API
* [**自动推理参数**](#auto-parameter-tuning) 调优（temp、top-p 等）并编辑聊天模板
* 上传图片、音频、PDF、代码、DOCX 以及更多文件类型，与其聊天。

<div data-with-frame="true"><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Ft1WkYzHmOVMXumiz71N0%2Ftoolcalling%20chat%20preview.png?alt=media&#x26;token=a1741a6c-bf24-4df8-9f27-ce21b868dbdf" alt="" width="563"><figcaption></figcaption></figure></div>

### 使用 Unsloth Studio Chat

{% columns %}
{% column %}

#### 搜索并运行模型

你可以通过 Hugging Face 搜索并下载任意模型，或者使用本地文件。

Studio 支持多种模型类型，包括 **GGUF**、视觉-语言和文本转语音模型。运行最新模型，例如 [Qwen3.5](https://unsloth.ai/docs/zh/mo-xing/qwen3.5) 或 NVIDIA [Nemotron 3](https://unsloth.ai/docs/zh/mo-xing/nemotron-3).

上传图片、音频、PDF、代码、DOCX 以及更多文件类型，与其聊天。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FBf3UDywdNSlvCBhUuVsp%2FScreenshot%202026-03-17%20at%2012.34.23%E2%80%AFAM.png?alt=media&#x26;token=b6127cbf-76f7-48da-b869-3760ed5e9b42" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Studio Chat 会自动在 **多 GPU 环境** 上进行推理。
{% endhint %}

{% columns %}
{% column %}

#### 代码执行

Unsloth Studio 让 LLM 运行 Bash 和 Python，而不仅仅是 JavaScript。它还会像 Claude Artifacts 一样对程序进行沙箱隔离，因此模型可以测试代码、生成文件，并通过真实计算验证答案。

这使得模型给出的答案更加可靠和准确。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fel6jjv4rUTRCRwcRpIr7%2Flong%20code%20exec.png?alt=media&#x26;token=9d3d5930-0fdc-4d97-941c-983e5629296d" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### 自动修复工具调用

Unsloth Studio 不仅支持工具调用和网页搜索，还能自动修复可能发生的任何错误。

这意味着你总能得到推理输出 **而不会** 出现损坏的工具调用。&#x20;

例如，Qwen3.5-4B 搜索了 20+ 个网站并引用了来源，网页搜索发生在其思考轨迹中。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FXPQGEEr1YoKofrTatAKK%2Ftoolcallingif.gif?alt=media&#x26;token=25d68698-fb13-4c46-99b2-d39fb025df08" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### 自动参数调优

推理参数，例如 **temperature**, **top-p**, **top-k** 会为 Qwen3.5 等新模型自动预设，这样你无需担心设置，就能获得最佳输出。你也可以手动调整参数并编辑系统提示词。

借助 llama.cpp 的智能自动上下文，不再需要调整上下文长度；它只会使用你需要的上下文，而不会加载任何额外内容。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FAQKsjtynvCXKtadvKhq1%2FRecording%202026-03-13%20114257.gif?alt=media&#x26;token=b5bfff0c-8189-4358-9344-08d0ae17782a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### 聊天工作区

输入提示，附加任何文档、图片（webp、png）、代码文件、txt 或音频作为额外上下文，并实时查看模型回复。

开关：思考 + 网页搜索。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FHlOKWnSB6slhE1EXgAeZ%2Fimage.png?alt=media&#x26;token=b5bdfe4e-fe0e-4a2a-9eba-b04b15a79018" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

### 模型竞技场

Studio Chat 让你使用相同提示并排比较任意两个模型。例如，比较基础模型和 LoRa 适配器。推理会先加载一个模型，然后再加载第二个模型（并行推理正在开发中）。

<div data-with-frame="true"><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FC3xjqlunbpUr7nx6sQ4j%2Fimage.png?alt=media&#x26;token=65501d63-1346-4a1e-b055-c94294a24305" alt="" width="563"><figcaption></figcaption></figure></div>

{% columns %}
{% column %}
训练后，你可以用相同提示将基础模型和微调后的模型并排比较，查看变化以及结果是否有所改善。

这个工作流可以轻松看出你的微调如何改变了模型的回复，以及它是否提升了你的使用场景中的结果。
{% endcolumn %}

{% column %}

<div align="center" data-with-frame="true"><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVgnE7eMPQk2vaFboJ4BU%2Fmodel%20arena%20closeup.png?alt=media&#x26;token=8b0a910b-440c-4859-a846-0060e61e157b" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Studio Chat 可自动在 **多 GPU 环境** 上进行推理。
{% endhint %}

### 使用旧的 / 现有的 GGUF 模型

{% columns %}
{% column %}
**4 月 1 日更新：** 现在你可以选择一个现有文件夹，让 Unsloth 从中检测。

**3 月 27 日更新：** Unsloth Studio 现在 **会自动检测较旧 / 预先存在的模型** 这些模型可能来自 Hugging Face、LM Studio 等下载来源。
{% endcolumn %}

{% column %}

<figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FBn3Fs1cchFchl328wSOs%2FScreenshot%202026-04-05%20at%205.43.57%E2%80%AFAM.png?alt=media&#x26;token=cc57ec6e-653a-4824-8e8d-a6bfbcd27493" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

**手动说明：** Unsloth Studio 会检测下载到你的 Hugging Face Hub 缓存中的模型 `(C:\Users{your_username}.cache\huggingface\hub)`。如果你通过 LM Studio 下载了 GGUF 模型，请注意它们存储在 `C:\Users{your_username}.cache\lm-studio\models` ***或*** `C:\Users{your_username}\lm-studio\models` 中，默认情况下 llama.cpp 无法看到这些文件——你需要将这些 .gguf 文件移动或复制到你的 Hugging Face Hub 缓存目录（或 llama.cpp 可访问的其他路径），以便 Unsloth Studio 加载它们。

在 Studio 中对模型或适配器完成微调后，你可以将其导出为 GGUF，并在 Studio Chat 中使用 **llama.cpp** 直接进行本地推理。Unsloth Studio 由 llama.cpp 和 Hugging Face 提供支持。

### 将文件作为上下文添加

Studio Chat 支持在对话中直接输入多模态内容。你可以将文档、图片或音频作为提示的额外上下文附加进去。

<div data-with-frame="true"><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FSitddQpGkOwUvirMem5P%2Fimage.png?alt=media&#x26;token=43b7af91-ea86-4279-a787-b4b444640d82" alt="" width="563"><figcaption></figcaption></figure></div>

这让测试模型如何处理 PDF、截图或参考材料等真实输入变得很容易。文件会在本地处理，并作为上下文提供给模型。

### **删除模型文件**

你可以通过模型搜索中的垃圾桶图标删除旧模型文件，或从默认的 Hugging Face 缓存目录中移除相关的缓存模型文件夹。默认情况下，Hugging Face 使用 `~/.cache/huggingface/hub/` 在 macOS/Linux/WSL 上，以及 `C:\Users\<username>\.cache\huggingface\hub\` 在 Windows 上。

* **MacOS、Linux、WSL：** `~/.cache/huggingface/hub/`
* **Windows：** `%USERPROFILE%\.cache\huggingface\hub\`

如果 `HF_HUB_CACHE` 或 `HF_HOME` 已设置，则改用该位置。在 Linux 和 WSL 上， `XDG_CACHE_HOME` 也可以更改默认缓存根目录。

### **Unsloth 未检测到或未使用我的 GPU**

如果模型没有使用你的 GPU，尤其是在 Docker 中，请尝试：

手动拉取最新镜像：

```bash
 docker pull unsloth/unsloth:latest
```

* 使用 GPU 访问启动容器：
  * `docker run`: `--gpus all`
  * Docker Compose： `capabilities: [gpu]`
* 在 Linux 上，请确保已安装 NVIDIA Container Toolkit。
* 在 Windows 上：
  * 检查 `nvcc --version` 是否与以下命令显示的 CUDA 版本一致： `nvidia-smi`
  * 参见： <https://docs.docker.com/desktop/features/gpu/>
