For the complete documentation index, see llms.txt. This page is also available as Markdown.

IBM Granite 4.0

如何使用 Unsloth GGUF 在 llama.cpp、Ollama 上运行 IBM Granite-4.0,以及如何微调!

IBM 发布了 Granite-4.0 模型,共 3 种尺寸,包括 Nano (350M 和 1B), Micro (3B), Tiny (7B/1B 激活)以及 Small (32B/9B 激活)。在 15T 个 token 上训练,IBM 全新的混合(H)Mamba 架构使 Granite-4.0 模型能够以更低的内存占用运行得更快。

了解 如何运行 Unsloth Granite-4.0 Dynamic GGUF,或对模型进行微调/RL。你可以 微调 Granite-4.0 ,使用我们免费的 Colab 笔记本,适用于支持客服场景。

运行教程微调教程

Unsloth Granite-4.0 上传:

动态 GGUF
动态 4 位 + FP8
16 位 Instruct

你也可以查看我们的 Granite-4.0 集合 ,其中包含所有上传版本,包括 Dynamic Float8 量化等。

Granite-4.0 模型说明:

  • Nano 和 H-Nano: 350M 和 1B 模型提供强大的指令跟随能力,可支持先进的端侧和边缘 AI 以及研究/微调应用。

  • H-Small(MoE): 适用于日常任务的企业主力模型,支持在 L40S 这类入门级 GPU 上运行多个长上下文会话(总计 32B,激活 9B)。

  • H-Tiny(MoE): 适合高吞吐、低复杂度任务,快速且成本高效;针对本地和边缘使用进行了优化(总计 7B,激活 1B)。

  • H-Micro(Dense): 轻量、高效,适用于高吞吐、低复杂度工作负载;非常适合本地和边缘部署(总计 3B)。

  • Micro(Dense): 当 Mamba2 未被完全支持时的另一种稠密模型选项(总计 3B)。

运行 Granite-4.0 教程

⚙️ 推荐的推理设置

IBM 推荐以下设置:

temperature=0.0, top_p=1.0, top_k=0

  • 温度为 0.0

  • Top_K = 0

  • Top_P = 1.0

  • 推荐最小上下文:16,384

  • 最大上下文长度窗口:131,072(128K 上下文)

聊天模板:

🦙 Ollama:运行 Granite-4.0 教程

  1. 安装 ollama 如果你还没有安装的话!

  1. 运行模型!注意,如果失败,你可以在 ollama serve中提到的修复和建议参数(如 temperature 等)都包含在我们 Hugging Face 上传中的 params 里!你可以将模型名称“granite-4.0-h-small-GGUF”改成任何 Granite 模型,例如“granite-4.0-h-micro:Q8_K_XL”。

📖 llama.cpp:运行 Granite-4.0 教程

  1. 获取最新的 llama.cpp ,在 GitHub 这里。你也可以按照下面的构建说明进行操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF ,如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认已开启。

  1. 如果你想直接使用 llama.cpp 来加载模型,可以使用下面的方法:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face 下载(见第 3 点)。这类似于 ollama run

  1. 或者 在安装 pip install huggingface_hub hf_transfer 之后,通过(下载模型)。你可以选择 Q4_K_M,或其他量化版本(例如 BF16 全精度)。

  1. 运行 Unsloth 的 Flappy Bird 测试

  2. 编辑 --threads 32 用于 CPU 线程数, --ctx-size 16384 用于上下文长度(Granite-4.0 支持 128K 上下文长度!), --n-gpu-layers 99 用于 GPU 卸载的层数。如果你的 GPU 显存不足,可以尝试调整它。如果你只进行 CPU 推理,也请将其移除。

  3. 对于对话模式:

🐋 Docker:运行 Granite-4.0 教程

如果你已经安装了 Docker desktop,只需运行下面的命令即可完成:

🦥 在 Unsloth 中微调 Granite-4.0

Unsloth 现在支持所有 Granite 4.0 模型,包括 nano、micro、tiny 和 small,用于微调。训练速度快 2 倍,使用少 50% 的 VRAM,并支持长 6 倍的上下文长度。Granite-4.0 micro 和 tiny 在 15GB VRAM 的 T4 GPU 上也能轻松运行。

这个笔记本会训练一个模型,使其成为能够理解客户交互的支持客服代理,并附带分析和建议。该设置可让你训练一个为客服代理提供实时协助的机器人。

我们还展示了如何使用存储在 Google Sheet 中的数据来训练模型。

Granite-4.0 的 Unsloth 配置:

如果你使用的是旧版 Unsloth 和/或在本地进行微调,请安装最新版本的 Unsloth:

最后更新于

这有帮助吗?