https://.ai/docs/models/gemma-4
Google DeepMind 推出的 Gemma 4 是一系列尖端的开放权重模型,采用了多模态架构(支持文本、图像、音频)以及混合专家(MoE)架构。
Unsloth 现已全面支持 Gemma 4 的推理与微调,并能显著降低显存占用。
1. 模型概览
Gemma 4 提供了多种尺寸,以平衡性能与硬件需求:
- E2B & E4B (Edge 系列):专为移动端和边缘设备设计,体积小巧,支持图像和音频输入。
- 26B A4B & 31B (MoE/Dense 系列):适用于工作站和消费级 GPU(如 RTX 系列),在推理、编程和复杂智能体工作流中表现卓越。
核心特性:
- 内置思考模式(Thinking Mode):模型在回答前会进行分步推理(类似于 O1 模型)。
- 长上下文(Long Context):边缘版本支持 128K token,大版本支持高达 256K token。
- 多语言支持:原生支持 140 多种语言。
- 多模态能力:可处理文本、图像、音频(E2B/E4B 版本)。
2. 硬件需求 (4-bit 量化后的估算)
Unsloth 优化版,可以在较低配置的硬件上运行这些模型:
Gemma-4-E2B / E4B:
- 4-bit 量化:约 5GB RAM/VRAM
- 16-bit 完整精度:约 15GB
Gemma-4-26B-A4B:
- 4-bit 量化:约 18GB VRAM
- 8-bit 量化:约 28GB
Gemma-4-31B:
- 4-bit 量化:约 20GB VRAM
- 8-bit 量化:约 34GB
| 模型版本 | 4-bit 量化 (推荐) | 8-bit 量化 | 16-bit 完整精度 |
|---|---|---|---|
| Gemma-4-E2B | ~3.5 GB | ~5.5 GB | ~9 GB |
| Gemma-4-E4B | ~5 GB | ~8 GB | ~15 GB |
| Gemma-4-26B-A4B | ~18 GB | ~28 GB | ~52 GB |
| Gemma-4-31B | ~20 GB | ~34 GB | ~62 GB |
3. 推荐参数配置
Gemma 4's max context is 128K for E2B / E4B and 256K for 26B A4B / 31B.
Gemma 4 上下文长度规格表
| 模型系列 | 模型版本 | 最大上下文长度 (Max Context) |
|---|---|---|
| Edge 系列 (轻量级) | Gemma-4-E2B / E4B | 128K tokens |
| MoE / Dense 系列 (高性能) | Gemma-4-26B-A4B / 31B | 256K tokens |
推荐参数:
temperature = 1.0top_p = 0.95top_k = 64