✨Gemma 4 - 如何在本地运行
在本地运行 Google 新的 Gemma 4 模型,包括 E2B、E4B、26B A4B 和 31B。
Gemma 4 是 Google DeepMind 推出的全新开放模型家族,包括 E2B, E4B, 26B-A4B、以及 31B。 这些多模态、混合思考模型支持 140+ 种语言,最长可达 256K 上下文,并提供稠密和 MoE 两种变体。E2B 和 E4B 还支持图像和音频。Gemma 4 采用 Apache-2.0 许可证发布,可在你的设备上本地运行,并可在 Unsloth Studio.
Gemma 4 现已在 Unsloth Studio 中支持训练以及 GGUF / MLX 推理!
Gemma-4-E2B 和 E4B 运行所需 5GB RAM (4-bit)或 15GB(完整 16-bit 精度)。 Gemma-4-26B-A4B 运行所需 18GB (4-bit)或 28GB(8-bit)。 Gemma-4-31B 需要 20GB RAM (4-bit)或 34GB(8-bit)。参见: Unsloth Gemma 4 GGUFs
使用指南
Gemma 4 在推理、编码、工具使用、长上下文任务、智能体工作流以及多模态任务方面表现出色。较小的 E2B 和 E4B 变体专为手机、笔记本电脑设计。
E2B
稠密 + PLE(128K 上下文) 支持:文本、图像、音频
适用于手机/边缘推理、ASR、语音翻译
E4B
稠密 + PLE(128K 上下文) 支持:文本、图像、音频
适合笔记本电脑和快速本地多模态使用的小模型
26B-A4B
MoE(256K 上下文) 支持:文本、图像
面向电脑使用的最佳速度/质量折中
31B
稠密(256K 上下文) 支持:文本、图像
在较慢推理下性能最强
我应该选择 26B-A4B 还是 31B?
26B-A4B - 在速度和准确性之间取得平衡。其 MoE 设计使其比 31B 更快,激活参数为 4B。如果 RAM 有限,并且你愿意用一点质量换速度,就选择它。
31B - 目前最强的 Gemma 4 模型。如果你有足够内存并能接受稍慢的速度,那么选择它以获得最高质量。
Gemma 4 基准测试
31B
85.2%
89.2%
80.0%
76.9%
26B A4B
82.6%
88.3%
77.1%
73.8%
E4B
69.4%
42.5%
52.0%
52.6%
E2B
60.0%
37.5%
44.0%
44.2%
硬件要求
表:Gemma 4 推理 GGUF 推荐硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)。你可以在 MacOS、NVIDIA RTX GPU 等设备上使用 Gemma 4。
E2B
4 GB
5–8 GB
10 GB
E4B
5.5–6 GB
9–12 GB
16 GB
26B A4B
16–18 GB
28–30 GB
52 GB
31B
17–20 GB
34–38 GB
62 GB
经验法则是,你的可用总内存应至少超过你下载的量化模型大小。如果没有,llama.cpp 仍然可以使用部分 RAM / 磁盘卸载运行,但生成速度会更慢。根据你使用的上下文窗口大小,你还需要更多计算资源。
推荐设置
建议使用 Google 默认的 Gemma 4 参数:
temperature = 1.0top_p = 0.95top_k = 64
本地推理推荐的实用默认值:
先从 32K 上下文 开始以获得更好的响应速度,然后再增加
保持 重复/存在惩罚 为禁用或 1.0,除非你看到循环输出。
句末标记是
<turn|>
Gemma 4 的最大上下文为 128K 适用于 E2B / E4B 和 256K 适用于 26B A4B / 31B.
思考模式
与旧版 Gemma 聊天模板相比,Gemma 4 使用标准的 system, assistant、以及 user 角色,并增加了显式思考控制。
如何启用思考:
添加标记 <|think|> 在 系统提示词开头.
已启用思考
已禁用思考
输出行为:
当启用思考时,模型会在最终答案之前输出其内部推理通道。
当禁用思考时,较大的模型仍可能输出一个 空的思考块 然后再给出最终答案。
例如使用“法国的首都是哪里?“:
然后它会输出:
多轮聊天规则:
对于多轮对话, 只在聊天历史中保留最终可见答案。 不要 将先前的思考块重新喂回下一轮。
运行 Gemma 4 教程
由于 Gemma 4 GGUF 有多种尺寸,小型模型的推荐起点是 8-bit,而大型模型的推荐起点是 动态 4-bit. Gemma 4 GGUFs:
🦥 Unsloth Studio 指南🦙 Llama.cpp 指南
通过我们的 Unsloth Studio Google Colab 笔记本免费运行 Gemma 4:
🦥 Unsloth Studio 指南
Gemma 4 现在可以在 Unsloth Studio中运行和微调,我们新的用于本地 AI 的开源 Web UI。Unsloth Studio 让你可以在 MacOS、Windows、Linux 和:
Gemma 4 现在可在 Unsloth Studio 中使用!

搜索并下载 Gemma 4
首次启动时,你需要创建一个密码来保护你的账户,并在稍后重新登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基本设置。你可以随时跳过。
然后前往 Studio Chat 选项卡,在搜索栏中搜索 Gemma 4,并下载你想要的模型和量化版本。
运行 Gemma 4
在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。
有关更多信息,你可以查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 指南
在本指南中,我们将对 26B-A4B 和 31B 使用动态 4-bit,对 E2B 和 E4B 使用 8-bit。参见: Gemma 4 GGUF 集合
在这些教程中,我们将使用 llama.cpp 进行快速本地推理,尤其是在你有 CPU 的情况下。
获取最新版本 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认已开启。
如果你想使用 llama.cpp 直接加载模型,可以按照下面的命令,根据各个模型进行操作。 UD-Q4_K_XL 是量化类型。你也可以通过 Hugging Face 下载(第 3 步)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。无需设置上下文长度,因为 llama.cpp 会自动使用所需的准确量。
26B-A4B:
31B:
E4B:
E2B:
通过以下方式下载模型(在安装后 pip install huggingface_hub hf_transfer )。你可以选择 UD-Q4_K_XL 或其他量化版本,例如 Q8_0 。如果下载卡住,请查看: Hugging Face Hub、XET 调试
然后以对话模式运行模型(带视觉 mmproj-F16):
MLX 动态量化
我们还首次上传了动态 4bit 和 8bit 量化版本!你可以在 Unsloth Studio 中运行它们。
尝试它们请使用:
Gemma 4 最佳实践
提示示例
简单推理提示
OCR / 文档提示
对于 OCR,请使用 高视觉 token 预算 例如 560 或 1120.
多模态比较提示
音频 ASR 提示
音频翻译提示
多模态设置
为了在多模态提示中获得最佳效果,请将多模态内容放在前面:
将 图像和/或音频放在文本之前.
对于视频,先传入一系列帧,然后再传入指令。
可变图像分辨率
Gemma 4 支持多种视觉 token 预算:
701402805601120
像这样使用它们:
70 / 140:分类、图像描述、快速视频理解
280 / 560:通用多模态聊天、图表、屏幕、UI 推理
1120:OCR、文档解析、手写、小字号文本
音频和视频限制
音频 仅在 E2B 和 E4B 可用。
音频最长支持 30 秒.
视频最长支持 60 秒 假设 每秒 1 帧 处理。
音频提示模板
ASR 提示
语音翻译提示
资源和链接

最后更新于
这有帮助吗?

