Gemma 4 - 如何在本地运行

在本地运行 Google 新的 Gemma 4 模型,包括 E2B、E4B、26B A4B 和 31B。

Gemma 4 是 Google DeepMind 推出的全新开放模型家族,包括 E2B, E4B, 26B-A4B、以及 31B。 这些多模态、混合思考模型支持 140+ 种语言,最长可达 256K 上下文,并提供稠密和 MoE 两种变体。E2B 和 E4B 还支持图像和音频。Gemma 4 采用 Apache-2.0 许可证发布,可在你的设备上本地运行,并可在 Unsloth Studio.

circle-check

Gemma-4-E2BE4B 运行所需 5GB RAM (4-bit)或 15GB(完整 16-bit 精度)。 Gemma-4-26B-A4B 运行所需 18GB (4-bit)或 28GB(8-bit)。 Gemma-4-31B 需要 20GB RAM (4-bit)或 34GB(8-bit)。参见: Unsloth Gemma 4 GGUFs

运行 Gemma 4微调 Gemma 4

使用指南

Gemma 4 在推理、编码、工具使用、长上下文任务、智能体工作流以及多模态任务方面表现出色。较小的 E2B 和 E4B 变体专为手机、笔记本电脑设计。

Gemma 4 变体
详情
最佳适用

E2B

稠密 + PLE(128K 上下文) 支持:文本、图像、音频

适用于手机/边缘推理、ASR、语音翻译

E4B

稠密 + PLE(128K 上下文) 支持:文本、图像、音频

适合笔记本电脑和快速本地多模态使用的小模型

26B-A4B

MoE(256K 上下文) 支持:文本、图像

面向电脑使用的最佳速度/质量折中

31B

稠密(256K 上下文) 支持:文本、图像

在较慢推理下性能最强

我应该选择 26B-A4B 还是 31B?

  • 26B-A4B - 在速度和准确性之间取得平衡。其 MoE 设计使其比 31B 更快,激活参数为 4B。如果 RAM 有限,并且你愿意用一点质量换速度,就选择它。

  • 31B - 目前最强的 Gemma 4 模型。如果你有足够内存并能接受稍慢的速度,那么选择它以获得最高质量。

Gemma 4 基准测试

Gemma 4
MMLU Pro
AIME 2026(无工具)
LiveCodeBench v6
MMMU Pro

31B

85.2%

89.2%

80.0%

76.9%

26B A4B

82.6%

88.3%

77.1%

73.8%

E4B

69.4%

42.5%

52.0%

52.6%

E2B

60.0%

37.5%

44.0%

44.2%

硬件要求

表:Gemma 4 推理 GGUF 推荐硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)。你可以在 MacOS、NVIDIA RTX GPU 等设备上使用 Gemma 4。

Gemma 4 变体
4-bit
8-bit
BF16 / FP16

E2B

4 GB

5–8 GB

10 GB

E4B

5.5–6 GB

9–12 GB

16 GB

26B A4B

16–18 GB

28–30 GB

52 GB

31B

17–20 GB

34–38 GB

62 GB

circle-info

经验法则是,你的可用总内存应至少超过你下载的量化模型大小。如果没有,llama.cpp 仍然可以使用部分 RAM / 磁盘卸载运行,但生成速度会更慢。根据你使用的上下文窗口大小,你还需要更多计算资源。

推荐设置

建议使用 Google 默认的 Gemma 4 参数:

  • temperature = 1.0

  • top_p = 0.95

  • top_k = 64

本地推理推荐的实用默认值:

  • 先从 32K 上下文 开始以获得更好的响应速度,然后再增加

  • 保持 重复/存在惩罚 为禁用或 1.0,除非你看到循环输出。

  • 句末标记是 <turn|>

circle-info

Gemma 4 的最大上下文为 128K 适用于 E2B / E4B256K 适用于 26B A4B / 31B.

思考模式

与旧版 Gemma 聊天模板相比,Gemma 4 使用标准的 system, assistant、以及 user 角色,并增加了显式思考控制。

如何启用思考:

添加标记 <|think|>系统提示词开头.

已启用思考

已禁用思考

输出行为:

当启用思考时,模型会在最终答案之前输出其内部推理通道。

当禁用思考时,较大的模型仍可能输出一个 空的思考块 然后再给出最终答案。

例如使用“法国的首都是哪里?“:

然后它会输出:

多轮聊天规则:

对于多轮对话, 只在聊天历史中保留最终可见答案不要 将先前的思考块重新喂回下一轮。

运行 Gemma 4 教程

由于 Gemma 4 GGUF 有多种尺寸,小型模型的推荐起点是 8-bit,而大型模型的推荐起点是 动态 4-bit. Gemma 4 GGUFsarrow-up-right:

🦥 Unsloth Studio 指南🦙 Llama.cpp 指南

通过我们的 Unsloth Studio Google Colab 笔记本免费运行 Gemma 4:

🦥 Unsloth Studio 指南

Gemma 4 现在可以在 Unsloth Studio中运行和微调,我们新的用于本地 AI 的开源 Web UI。Unsloth Studio 让你可以在 MacOS、Windows、Linux 和:

circle-check
1

安装 Unsloth

在终端中运行:

MacOS、Linux、WSL:

Windows PowerShell:

2

启动 Unsloth

MacOS、Linux、WSL 和 Windows:

然后打开 http://localhost:8888 在浏览器中。

3

搜索并下载 Gemma 4

首次启动时,你需要创建一个密码来保护你的账户,并在稍后重新登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基本设置。你可以随时跳过。

然后前往 Studio Chat 选项卡,在搜索栏中搜索 Gemma 4,并下载你想要的模型和量化版本。

4

运行 Gemma 4

在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。

有关更多信息,你可以查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 指南

在本指南中,我们将对 26B-A4B 和 31B 使用动态 4-bit,对 E2B 和 E4B 使用 8-bit。参见: Gemma 4 GGUF 集合arrow-up-right

在这些教程中,我们将使用 llama.cpparrow-up-right 进行快速本地推理,尤其是在你有 CPU 的情况下。

1

获取最新版本 llama.cpp GitHub 这里arrow-up-right。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认已开启。

2

如果你想使用 llama.cpp 直接加载模型,可以按照下面的命令,根据各个模型进行操作。 UD-Q4_K_XL 是量化类型。你也可以通过 Hugging Face 下载(第 3 步)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。无需设置上下文长度,因为 llama.cpp 会自动使用所需的准确量。

26B-A4B:

31B:

E4B:

E2B:

3

通过以下方式下载模型(在安装后 pip install huggingface_hub hf_transfer )。你可以选择 UD-Q4_K_XL 或其他量化版本,例如 Q8_0 。如果下载卡住,请查看: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型(带视觉 mmproj-F16):

MLX 动态量化

我们还首次上传了动态 4bit 和 8bit 量化版本!你可以在 Unsloth Studio 中运行它们。

尝试它们请使用:

Gemma 4 最佳实践

提示示例

简单推理提示

OCR / 文档提示

对于 OCR,请使用 高视觉 token 预算 例如 5601120.

多模态比较提示

音频 ASR 提示

音频翻译提示

多模态设置

为了在多模态提示中获得最佳效果,请将多模态内容放在前面:

  • 图像和/或音频放在文本之前.

  • 对于视频,先传入一系列帧,然后再传入指令。

可变图像分辨率

Gemma 4 支持多种视觉 token 预算:

  • 70

  • 140

  • 280

  • 560

  • 1120

像这样使用它们:

  • 70 / 140:分类、图像描述、快速视频理解

  • 280 / 560:通用多模态聊天、图表、屏幕、UI 推理

  • 1120:OCR、文档解析、手写、小字号文本

音频和视频限制

  • 音频 仅在 E2BE4B 可用。

  • 音频最长支持 30 秒.

  • 视频最长支持 60 秒 假设 每秒 1 帧 处理。

音频提示模板

ASR 提示

语音翻译提示

资源和链接

最后更新于

这有帮助吗?