Google DeepMind liberó la cuarta generación de Gemma, su familia de modelos open-weight, bajo licencia Apache 2.0. Son cuatro variantes — 2B, 9B, 18B y 31B — diseñadas desde smartphones (edge) hasta despliegues cloud frontier.
Las 4 variantes
- Gemma 4 — 2B: quantizable a INT4 en smartphone. Competitivo con GPT-3.5-turbo en la mayoría de tareas generales.
- Gemma 4 — 9B: el sweet spot para laptops y estaciones de trabajo con GPU consumer.
- Gemma 4 — 18B: el tier serverless ideal (caps en 24GB de VRAM).
- Gemma 4 — 31B: el frontier open source, compite con Claude 3.5 Sonnet en varios benchmarks.
Por qué importa Apache 2.0
A diferencia de la licencia “Gemma Terms” de versiones previas, Apache 2.0 elimina casi todas las restricciones de uso comercial. Es un movimiento claramente dirigido a competir con Llama de Meta y con los modelos chinos (análisis open vs closed).
Casos de uso recomendados
- On-device en productos móviles (chat, traducción, asistencia).
- Alternativa on-premise para sectores regulados (salud, banca) donde APIs externas no cumplen NIS2/DORA.
- Fine-tuning corporativo para dominios verticales sin enviar datos a terceros.
Benchmarks clave
Gemma 4 31B registra ~78% en MMLU, ~72% en HumanEval y ~65% en GPQA Diamond. No es frontier, pero está a meses — no años — del mejor closed source. Tabla comparativa completa en nuestro análisis de modelos.
Cómo empezar
Pesos disponibles en Hugging Face y Kaggle. Integrable en vLLM, Ollama y LM Studio. Soporte nativo en Vertex AI para despliegue gestionado.
Fuentes: Google DeepMind blog oficial, Hugging Face leaderboard, TechCrunch.