IBM Granite 4.1 - 如何在本地运行
使用 Unsloth GGUF 运行 IBM Granite-4.1,以及如何微调!
IBM 发布了 Granite-4.1 模型,提供 3 种尺寸: 3B, 8B 和 30B。Granite-4.1 是一个长上下文的稠密模型家族,专为指令遵循、工具调用、聊天、RAG 和编程等用例而构建。这些模型在各自规模上都极具竞争力,并使用 15T tokens 进行了训练。
了解如何运行 Unsloth Granite-4.1 Dynamic GGUF,或对模型进行微调/RL。你可以使用我们的免费 notebook 为支持客服场景对 Granite-4.1 进行微调。
Granite-4.1 模型家族:
Granite-4.1-3B 稠密型: 轻量高效,适用于本地、边缘和高吞吐量任务。非常适合快速分类、信息抽取、简单 RAG、函数调用,以及在较小 GPU 上进行微调。
Granite-4.1-8B 稠密型: 一个平衡型模型,适用于本地助手、RAG、编程、多语言聊天和工具使用工作流。如果你想在保持合理内存占用的同时获得更好的质量,这是一个很好的默认选择。
Granite-4.1-30B 稠密型: 最强大的 Granite-4.1 模型。最适合更高要求的企业助手、长上下文任务、复杂 RAG、编程、多语言工作流以及代理式工具调用用例。
⚙️ 使用指南
使用这些设置可获得确定性的、遵循指令的回复:
temperature=0.0, top_p=1.0, top_k=0
Temperature of
0.0Top_K =
0Top_P =
1.0推荐最小上下文:
16,384最大上下文长度窗口:
131,072tokens
Unsloth Granite-4.1 上传
运行 Granite-4.1 教程
在 Unsloth Studio 中运行在 llama.cpp 中运行
请不要使用 CUDA 13.2 否则你可能会得到乱码输出。NVIDIA 正在修复。
🦥 Unsloth Studio 指南
在本教程中,我们将使用 Unsloth Studio,这是我们用于运行和训练 LLM 的新 Web UI。使用 Unsloth Studio,你可以在本地于 音频、图像和文本上运行模型,支持 Mac、Windows和 Linux,并且:

搜索并下载 Granite 4.1
首次启动时,你需要创建一个密码来保护账户安全,并在以后重新登录。然后前往 Studio Chat 选项卡,并在搜索栏中搜索 Granite 4.1,然后下载你想要的模型和量化版本。
运行 Granite 4.1
在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。
如需更多信息,你可以查看我们的 Unsloth Studio 推理指南.
🦙 Llama.cpp 教程
获取最新的
llama.cpp。你也可以按照下面的构建说明操作。将-DGGML_CUDA=ON改为-DGGML_CUDA=OFF如果你没有 GPU,或者只想使用 CPU 推理。对于 Apple Mac / Metal 设备,请设置-DGGML_CUDA=OFF然后照常继续——Metal 支持默认已开启。
如果你想使用
llama.cpp直接加载模型,你可以使用下面的方法。UD-Q4_K_XL是量化类型。你也可以将其更改为其他量化版本,例如Q4_K_M,Q5_K_M,Q8_0或在可用时使用 BF16 全精度。
或者在安装后通过 Hugging Face 下载模型
huggingface_hub和hf_transfer.
运行 Unsloth 的 Flappy Bird 测试。
编辑 --threads 32 来设置 CPU 线程数, --ctx-size 16384 用于上下文长度,以及 --n-gpu-layers 99 用于 GPU 卸载。如果你的 GPU 内存不足,请尝试调整 GPU 层数。如果你使用的是仅 CPU 推理,请移除 --n-gpu-layers 。
对于对话模式:
在 Unsloth 中微调 Granite-4.1
Unsloth 支持包括 3B、8B 和 30B 在内的 Granite-4.1 模型进行微调。训练速度提升 2 倍,使用更少的 VRAM,并支持更长的上下文长度。Granite-4.1-3B 和 Granite-4.1-8B 是本地微调的最佳起点,而 Granite-4.1-30B 是更高精度企业工作流的最强模型。
Granite-4.0 免费微调 notebook (将模型名称更改为 Granite-4.1)
这个 notebook 会训练一个模型,使其成为能够理解客户互动的支持客服助手,并附带分析和建议。此设置可让你训练一个为支持客服人员提供实时协助的机器人。我们还展示了如何使用存储在 Google Sheet 中的数据来训练模型。
Granite-4.1 的 Unsloth 配置
如果你使用的是旧版 Unsloth 和/或正在本地微调,请安装最新版本的 Unsloth:
要强制重新安装最新的 Unsloth 和 Unsloth Zoo:
你可以将模型名称更改为任何 Granite-4.1 模型:
对于 30B 模型,请使用更大的 GPU 或多 GPU 配置,并在内存不足时降低 max_seq_length 或提高量化级别。
最后更新于
这有帮助吗?


