https://.ai/docs/models/gemma-4

Google DeepMind 推出的 Gemma 4 是一系列尖端的开放权重模型,采用了多模态架构(支持文本、图像、音频)以及混合专家(MoE)架构。

Unsloth 现已全面支持 Gemma 4 的推理与微调,并能显著降低显存占用。

1. 模型概览

Gemma 4 提供了多种尺寸,以平衡性能与硬件需求:

  • E2B & E4B (Edge 系列):专为移动端和边缘设备设计,体积小巧,支持图像和音频输入。
  • 26B A4B & 31B (MoE/Dense 系列):适用于工作站和消费级 GPU(如 RTX 系列),在推理、编程和复杂智能体工作流中表现卓越。

核心特性:

  • 内置思考模式(Thinking Mode):模型在回答前会进行分步推理(类似于 O1 模型)。
  • 长上下文(Long Context):边缘版本支持 128K token,大版本支持高达 256K token
  • 多语言支持:原生支持 140 多种语言。
  • 多模态能力:可处理文本、图像、音频(E2B/E4B 版本)。

2. 硬件需求 (4-bit 量化后的估算)

Unsloth 优化版,可以在较低配置的硬件上运行这些模型:

  • Gemma-4-E2B / E4B

    • 4-bit 量化:约 5GB RAM/VRAM
    • 16-bit 完整精度:约 15GB
  • Gemma-4-26B-A4B

    • 4-bit 量化:约 18GB VRAM
    • 8-bit 量化:约 28GB
  • Gemma-4-31B

    • 4-bit 量化:约 20GB VRAM
    • 8-bit 量化:约 34GB
模型版本4-bit 量化 (推荐)8-bit 量化16-bit 完整精度
Gemma-4-E2B~3.5 GB~5.5 GB~9 GB
Gemma-4-E4B~5 GB~8 GB~15 GB
Gemma-4-26B-A4B~18 GB~28 GB~52 GB
Gemma-4-31B~20 GB~34 GB~62 GB

3. 推荐参数配置

Gemma 4's max context is 128K for E2B / E4B and 256K for 26B A4B / 31B.

Gemma 4 上下文长度规格表

模型系列模型版本最大上下文长度 (Max Context)
Edge 系列 (轻量级)Gemma-4-E2B / E4B128K tokens
MoE / Dense 系列 (高性能)Gemma-4-26B-A4B / 31B256K tokens

推荐参数:

  • temperature = 1.0
  • top_p = 0.95
  • top_k = 64
最后修改:2026 年 04 月 06 日
如果觉得我的文章对你有用,请随意赞赏