IBM Granite 4.0
如何使用 Unsloth GGUF 在 llama.cpp、Ollama 上运行 IBM Granite-4.0 以及如何微调!
IBM 发布了包含 3 个尺寸的 Granite-4.0 模型,包括 Nano (350M 和 1B), Micro (3B), Tiny (7B/1B 活跃)和 Small (32B/9B 活跃)。在 15T 训练令牌上训练,IBM 新的混合 (H) Mamba 架构使 Granite-4.0 模型运行更快且内存使用更低。
了解 如何运行 Unsloth Granite-4.0 动态 GGUF 或微调/RL 模型。你可以 微调 Granite-4.0 使用我们为支持代理用例提供的免费 Colab 笔记本。
Unsloth Granite-4.0 上传:
你也可以查看我们的 Granite-4.0 集合 包括所有上传项(如 Dynamic Float8 量化等)。
Granite-4.0 模型说明:
Nano 和 H-Nano: 350M 和 1B 模型提供强大的指令跟随能力,使其能够用于高级的设备端和边缘 AI 以及研究/微调应用。
H-Small (MoE): 面向企业的日常任务主力,支持在入门级 GPU(如 L40S)上进行多个长上下文会话(总计 32B,活跃 9B)。
H-Tiny (MoE): 快速且成本高效,适合高吞吐量、低复杂度任务;针对本地和边缘使用进行了优化(总计 7B,活跃 1B)。
H-Micro (Dense): 轻量高效,适用于高吞吐量、低复杂度工作负载;理想用于本地和边缘部署(总计 3B)。
Micro (Dense): 当 Mamba2 未完全支持时的替代稠密选项(总计 3B)。
运行 Granite-4.0 教程
⚙️ 推荐的推理设置
IBM 建议以下设置:
temperature=0.0, top_p=1.0, top_k=0
Temperature 为 0.0
Top_K = 0
Top_P = 1.0
推荐最小上下文:16,384
最大上下文长度窗口:131,072(128K 上下文)
聊天模板:
🦙 Ollama:运行 Granite-4.0 教程
安装
ollama如果你还没有安装!
运行模型!如果失败,请注意你可以调用
ollama serve在另一个终端中!我们在params的 Hugging Face 上传中包含了我们所有的修复和建议参数(如 temperature 等)!你可以更改模型名 'granite-4.0-h-small-GGUF' 为任何 Granite 模型,例如 'granite-4.0-h-micro:Q8_K_XL'。
📖 llama.cpp:运行 Granite-4.0 教程
获取最新的
llama.cpp在 GitHub 这里。你也可以按下面的构建说明操作。将-DGGML_CUDA=ON改为-DGGML_CUDA=OFF如果你没有 GPU 或者只想使用 CPU 推理。
如果你想直接使用
llama.cpp来加载模型,你可以如下操作:(:Q4_K_XL) 是量化类型。你也可以通过 Hugging Face 下载(见第 3 点)。这与ollama run
或 通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer之后)。你可以选择 Q4_K_M,或其他量化版本(如 BF16 全精度)。
运行 Unsloth 的 Flappy Bird 测试
编辑
--threads 32为 CPU 线程数,--ctx-size 16384为上下文长度(Granite-4.0 支持 128K 上下文长度!),--n-gpu-layers 99为 GPU 离载层数。若你的 GPU 内存不足可尝试调整。如果仅用 CPU 推理,请移除此项。用于对话模式:
🐋 Docker:运行 Granite-4.0 教程
如果你已经安装了 Docker 桌面,所需做的就是运行下面的命令,然后就完成了:
🦥 在 Unsloth 中微调 Granite-4.0
Unsloth 现在支持所有 Granite 4.0 模型,包括 nano、micro、tiny 和 small,用于微调。训练速度提高 2 倍,使用 50% 更少的显存,并支持 6 倍更长的上下文长度。Granite-4.0 的 micro 和 tiny 可以轻松适配 15GB VRAM 的 T4 GPU。
该笔记本训练一个成为支持代理的模型,使其能够理解客户互动,并提供分析和建议。该设置允许你训练一个为支持代理提供实时帮助的机器人。
我们还向你展示了如何使用存储在 Google 表格中的数据训练模型。

Unsloth 的 Granite-4.0 配置:
如果你有旧版本的 Unsloth 和/或在本地进行微调,请安装最新版本的 Unsloth:
最后更新于
这有帮助吗?

