cubeIBM Granite 4.0

如何使用 Unsloth GGUF 在 llama.cpp、Ollama 上运行 IBM Granite-4.0 以及如何微调!

IBM 发布了包含 3 个尺寸的 Granite-4.0 模型,包括 Nano (350M 和 1B), Micro (3B), Tiny (7B/1B 活跃)和 Small (32B/9B 活跃)。在 15T 训练令牌上训练,IBM 新的混合 (H) Mamba 架构使 Granite-4.0 模型运行更快且内存使用更低。

了解 如何运行 Unsloth Granite-4.0 动态 GGUF 或微调/RL 模型。你可以 微调 Granite-4.0 使用我们为支持代理用例提供的免费 Colab 笔记本。

运行教程微调教程

Unsloth Granite-4.0 上传:

你也可以查看我们的 Granite-4.0 集合arrow-up-right 包括所有上传项(如 Dynamic Float8 量化等)。

Granite-4.0 模型说明:

  • Nano 和 H-Nano: 350M 和 1B 模型提供强大的指令跟随能力,使其能够用于高级的设备端和边缘 AI 以及研究/微调应用。

  • H-Small (MoE): 面向企业的日常任务主力,支持在入门级 GPU(如 L40S)上进行多个长上下文会话(总计 32B,活跃 9B)。

  • H-Tiny (MoE): 快速且成本高效,适合高吞吐量、低复杂度任务;针对本地和边缘使用进行了优化(总计 7B,活跃 1B)。

  • H-Micro (Dense): 轻量高效,适用于高吞吐量、低复杂度工作负载;理想用于本地和边缘部署(总计 3B)。

  • Micro (Dense): 当 Mamba2 未完全支持时的替代稠密选项(总计 3B)。

运行 Granite-4.0 教程

⚙️ 推荐的推理设置

IBM 建议以下设置:

temperature=0.0, top_p=1.0, top_k=0

  • Temperature 为 0.0

  • Top_K = 0

  • Top_P = 1.0

  • 推荐最小上下文:16,384

  • 最大上下文长度窗口:131,072(128K 上下文)

聊天模板:

🦙 Ollama:运行 Granite-4.0 教程

  1. 安装 ollama 如果你还没有安装!

  1. 运行模型!如果失败,请注意你可以调用 ollama serve在另一个终端中!我们在 params 的 Hugging Face 上传中包含了我们所有的修复和建议参数(如 temperature 等)!你可以更改模型名 'granite-4.0-h-small-GGUF' 为任何 Granite 模型,例如 'granite-4.0-h-micro:Q8_K_XL'。

📖 llama.cpp:运行 Granite-4.0 教程

  1. 获取最新的 llama.cppGitHub 这里arrow-up-right。你也可以按下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU 或者只想使用 CPU 推理。

  1. 如果你想直接使用 llama.cpp 来加载模型,你可以如下操作:(:Q4_K_XL) 是量化类型。你也可以通过 Hugging Face 下载(见第 3 点)。这与 ollama run

  1. 通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。你可以选择 Q4_K_M,或其他量化版本(如 BF16 全精度)。

  1. 运行 Unsloth 的 Flappy Bird 测试

  2. 编辑 --threads 32 为 CPU 线程数, --ctx-size 16384 为上下文长度(Granite-4.0 支持 128K 上下文长度!), --n-gpu-layers 99 为 GPU 离载层数。若你的 GPU 内存不足可尝试调整。如果仅用 CPU 推理,请移除此项。

  3. 用于对话模式:

🐋 Docker:运行 Granite-4.0 教程

如果你已经安装了 Docker 桌面,所需做的就是运行下面的命令,然后就完成了:

🦥 在 Unsloth 中微调 Granite-4.0

Unsloth 现在支持所有 Granite 4.0 模型,包括 nano、micro、tiny 和 small,用于微调。训练速度提高 2 倍,使用 50% 更少的显存,并支持 6 倍更长的上下文长度。Granite-4.0 的 micro 和 tiny 可以轻松适配 15GB VRAM 的 T4 GPU。

该笔记本训练一个成为支持代理的模型,使其能够理解客户互动,并提供分析和建议。该设置允许你训练一个为支持代理提供实时帮助的机器人。

我们还向你展示了如何使用存储在 Google 表格中的数据训练模型。

Unsloth 的 Granite-4.0 配置:

如果你有旧版本的 Unsloth 和/或在本地进行微调,请安装最新版本的 Unsloth:

最后更新于

这有帮助吗?