For the complete documentation index, see llms.txt. This page is also available as Markdown.

IBM Granite 4.1 - 如何在本地运行

使用 Unsloth GGUF 运行 IBM Granite-4.1,以及如何微调!

IBM 发布了 Granite-4.1 模型,提供 3 种尺寸: 3B, 8B30B。Granite-4.1 是一个长上下文的稠密模型家族,专为指令遵循、工具调用、聊天、RAG 和编程等用例而构建。这些模型在各自规模上都极具竞争力,并使用 15T tokens 进行了训练。

了解如何运行 Unsloth Granite-4.1 Dynamic GGUF,或对模型进行微调/RL。你可以使用我们的免费 notebook 为支持客服场景对 Granite-4.1 进行微调。

Granite-4.1 模型家族:

  • Granite-4.1-3B 稠密型: 轻量高效,适用于本地、边缘和高吞吐量任务。非常适合快速分类、信息抽取、简单 RAG、函数调用,以及在较小 GPU 上进行微调。

  • Granite-4.1-8B 稠密型: 一个平衡型模型,适用于本地助手、RAG、编程、多语言聊天和工具使用工作流。如果你想在保持合理内存占用的同时获得更好的质量,这是一个很好的默认选择。

  • Granite-4.1-30B 稠密型: 最强大的 Granite-4.1 模型。最适合更高要求的企业助手、长上下文任务、复杂 RAG、编程、多语言工作流以及代理式工具调用用例。

⚙️ 使用指南

使用这些设置可获得确定性的、遵循指令的回复:

temperature=0.0, top_p=1.0, top_k=0

  • Temperature of 0.0

  • Top_K = 0

  • Top_P = 1.0

  • 推荐最小上下文: 16,384

  • 最大上下文长度窗口: 131,072 tokens

Unsloth Granite-4.1 上传

运行 Granite-4.1 教程

在 Unsloth Studio 中运行在 llama.cpp 中运行

🦥 Unsloth Studio 指南

在本教程中,我们将使用 Unsloth Studio,这是我们用于运行和训练 LLM 的新 Web UI。使用 Unsloth Studio,你可以在本地于 音频、图像和文本上运行模型,支持 Mac、Windows和 Linux,并且:

1

安装 Unsloth

MacOS、Linux、WSL:

Windows PowerShell:

2

设置 Unsloth Studio(仅需一次)

设置过程会自动安装 Node.js(通过 nvm)、构建前端、安装所有 Python 依赖,并构建带 CUDA 支持的 llama.cpp。

WSL 用户: 系统会提示你输入 sudo 密码以安装构建依赖(cmake, git, libcurl4-openssl-dev).

3

启动 Unsloth

MacOS、Linux、WSL:

Windows PowerShell:

然后在浏览器中打开 http://localhost:8888

4

搜索并下载 Granite 4.1

首次启动时,你需要创建一个密码来保护账户安全,并在以后重新登录。然后前往 Studio Chat 选项卡,并在搜索栏中搜索 Granite 4.1,然后下载你想要的模型和量化版本。

5

运行 Granite 4.1

在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。

如需更多信息,你可以查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 教程

  1. 获取最新的 llama.cpp。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想使用 CPU 推理。对于 Apple Mac / Metal 设备,请设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认已开启。

  1. 如果你想使用 llama.cpp 直接加载模型,你可以使用下面的方法。 UD-Q4_K_XL 是量化类型。你也可以将其更改为其他量化版本,例如 Q4_K_M, Q5_K_M, Q8_0 或在可用时使用 BF16 全精度。

  1. 或者在安装后通过 Hugging Face 下载模型 huggingface_hubhf_transfer.

  1. 运行 Unsloth 的 Flappy Bird 测试。

编辑 --threads 32 来设置 CPU 线程数, --ctx-size 16384 用于上下文长度,以及 --n-gpu-layers 99 用于 GPU 卸载。如果你的 GPU 内存不足,请尝试调整 GPU 层数。如果你使用的是仅 CPU 推理,请移除 --n-gpu-layers

  1. 对于对话模式:

在 Unsloth 中微调 Granite-4.1

Unsloth 支持包括 3B、8B 和 30B 在内的 Granite-4.1 模型进行微调。训练速度提升 2 倍,使用更少的 VRAM,并支持更长的上下文长度。Granite-4.1-3B 和 Granite-4.1-8B 是本地微调的最佳起点,而 Granite-4.1-30B 是更高精度企业工作流的最强模型。

这个 notebook 会训练一个模型,使其成为能够理解客户互动的支持客服助手,并附带分析和建议。此设置可让你训练一个为支持客服人员提供实时协助的机器人。我们还展示了如何使用存储在 Google Sheet 中的数据来训练模型。

Granite-4.1 的 Unsloth 配置

如果你使用的是旧版 Unsloth 和/或正在本地微调,请安装最新版本的 Unsloth:

要强制重新安装最新的 Unsloth 和 Unsloth Zoo:

你可以将模型名称更改为任何 Granite-4.1 模型:

对于 30B 模型,请使用更大的 GPU 或多 GPU 配置,并在内存不足时降低 max_seq_length 或提高量化级别。

最后更新于

这有帮助吗?