✨Gemma 4 - 如何在本地运行
在本地运行 Google 的新 Gemma 4 模型,包括 E2B、E4B、26B A4B 和 31B。
Gemma 4 是 Google DeepMind 全新的开放模型系列,包括 E2B, E4B, 26B-A4B、以及 31B。 这些多模态、混合思考模型支持 140 多种语言,最长可达 256K 上下文,并提供稠密版和 MoE 版。Gemma 4 采用 Apache-2.0 许可,可在你的本地设备上运行。
Gemma-4-E2B 以及 E4B 支持图像和音频。可运行于 5GB RAM (4 位)或 15GB(完整 16 位精度)。
Gemma-4-26B-A4B 可运行于 18GB (4 位)或 28GB(8 位)。 Gemma-4-31B 需要 20GB RAM (4 位)或 34GB(8 位)。

你现在可以在 Unsloth Studio✨
使用指南
Gemma 4 在推理、编码、工具使用、长上下文和智能体工作流,以及多模态任务方面表现出色。较小的 E2B 和 E4B 变体专为手机和笔记本电脑设计,而更大的模型则面向中高 CPU / VRAM 系统,例如配备 NVIDIA RTX GPU 的 PC。
E2B
稠密 + PLE(128K 上下文) 支持:文本、图像、音频
适用于手机/边缘推理、ASR、语音翻译
E4B
稠密 + PLE(128K 上下文) 支持:文本、图像、音频
适用于笔记本电脑和快速本地多模态使用的小型模型
26B-A4B
MoE(256K 上下文) 支持:文本、图像
在速度/质量之间达到最佳平衡,适合电脑使用
31B
稠密(256K 上下文) 支持:文本、图像
在较慢推理下性能最强
我该选 26B-A4B 还是 31B?
26B-A4B - 在速度和准确性之间取得平衡。其 MoE 设计使其比 31B 更快,激活参数为 4B。如果内存有限,并且你愿意用一点质量换速度,就选它。
31B - 目前最强的 Gemma 4 模型。如果你有足够内存,并且可以接受略慢一些的速度,就选它以获得最高质量。
Gemma 4 基准测试
31B
85.2%
89.2%
80.0%
76.9%
26B A4B
82.6%
88.3%
77.1%
73.8%
E4B
69.4%
42.5%
52.0%
52.6%
E2B
60.0%
37.5%
44.0%
44.2%
硬件要求
表:Gemma 4 推理 GGUF 推荐硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)。你可以在 MacOS、NVIDIA RTX GPU 等设备上使用 Gemma 4。
E2B
4 GB
5–8 GB
10 GB
E4B
5.5–6 GB
9–12 GB
16 GB
26B A4B
16–18 GB
28–30 GB
52 GB
31B
17–20 GB
34–38 GB
62 GB
一般来说,你可用的总内存应至少大于你下载的量化模型大小。如果不足,llama.cpp 仍可通过部分 RAM / 磁盘卸载运行,但生成速度会更慢。根据你使用的上下文窗口大小,你还需要更多算力。
推荐设置
建议使用 Google 的默认 Gemma 4 参数:
temperature = 1.0top_p = 0.95top_k = 64
本地推理的推荐实用默认值:
先从 32K 上下文 开始以提高响应速度,然后再增加
保持 重复/存在惩罚 为禁用或 1.0,除非你看到循环输出。
句末标记是
<turn|>
Gemma 4 的最大上下文为 128K ,适用于 E2B / E4B 以及 256K ,适用于 26B A4B / 31B.
思考模式
与较早的 Gemma 聊天模板相比,Gemma 4 使用标准的 system, assistant、以及 user 角色,并增加了显式的思考控制。
如何启用思考:
添加标记 <|think|> 到 系统提示词的开头.
已启用思考
已禁用思考
输出行为:
启用思考时,模型会在最终答案之前输出其内部推理通道。
当思考被禁用时,更大的模型仍可能在最终答案之前输出一个 空的思考块 。
例如使用“法国的首都是哪里?”:
然后它会输出:
多轮对话规则:
对于多轮对话, 只在聊天历史中保留最终可见答案。 不要 把之前的思考块重新喂给下一轮。
运行 Gemma 4 教程
由于 Gemma 4 GGUF 有多种尺寸,小模型推荐从 8 位开始,而大模型推荐从 动态 4 位. Gemma 4 GGUF:
🦥 Unsloth Studio 指南🦙 Llama.cpp 指南
🦥 Unsloth Studio 指南
Gemma 4 现在可以在 Unsloth Studio中运行和微调,这是我们面向本地 AI 的全新开源 Web UI。Unsloth Studio 让你可以在本地运行模型,支持 MacOS、Windows、Linux 以及:
Gemma 4 现在可在 Unsloth Studio 中使用!

搜索并下载 Gemma 4
首次启动时,你需要创建一个密码来保护你的账户,并在之后重新登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基本设置。你可以随时跳过。
然后前往 Studio Chat 选项卡,在搜索栏中搜索 Gemma 4,并下载你想要的模型和量化版本。

运行 Gemma 4
使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。
更多信息请查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 指南
在本指南中,我们将对 26B-A4B 和 31B 使用动态 4 位,对 E2B 和 E4B 使用 8 位。见: Gemma 4 GGUF 集合
在这些教程中,我们将使用 llama.cpp 进行快速本地推理,尤其适合你有 CPU 的情况。
获取最新版本 llama.cpp ,在 GitHub 这里。你也可以按照下面的构建说明进行。将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,请设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。
如果你想要使用 llama.cpp 直接加载模型,可以按照下面的命令,根据各个模型进行操作。 UD-Q4_K_XL 是量化类型。你也可以通过 Hugging Face 下载(第 3 步)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到指定位置。无需设置上下文长度,因为 llama.cpp 会自动使用所需的精确大小。
26B-A4B:
31B:
E4B:
E2B:
通过以下方式下载模型(在安装后 pip install huggingface_hub hf_transfer )。你可以选择 UD-Q4_K_XL 或其他量化版本,例如 Q8_0 。如果下载卡住,请查看: Hugging Face Hub、XET 调试
然后以对话模式运行模型(带视觉 mmproj-F16):
MLX 动态量化
我们还首次上传了动态 4bit 和 8bit 量化版本!你可以在 Unsloth Studio 中运行它们。
要试用它们,请使用:
Gemma 4 最佳实践
提示示例
简单推理提示
OCR / 文档提示
对于 OCR,请使用 较高的视觉 token 预算 例如 560 或 1120.
多模态比较提示
音频 ASR 提示
音频翻译提示
多模态设置
为了让多模态提示获得最佳效果,请把多模态内容放在前面:
将 图像和/或音频放在文本前面.
对于视频,先提供一系列帧,然后再给出指令。
可变图像分辨率
Gemma 4 支持多种视觉 token 预算:
701402805601120
可这样使用:
70 / 140:分类、图像描述、快速视频理解
280 / 560:通用多模态聊天、图表、屏幕、UI 推理
1120:OCR、文档解析、手写、小文本
音频和视频限制
音频 可用在 E2B 以及 E4B 仅限。
音频最长支持 30 秒.
视频最长支持 60 秒 假设 每秒 1 帧 处理。
音频提示模板
ASR 提示
语音翻译提示
资源和链接

最后更新于
这有帮助吗?

