Gemma 4 de Google: potencia de razonamiento en modelos abiertos

Google lanza Gemma 4, una nueva familia de modelos abiertos optimizados para flujos de trabajo agénticos y razonamiento avanzado con licencia Apache 2.0.

Editor en La Ecuación Digital. Analista y divulgador tecnológico con…

La arquitectura de la inteligencia artificial abierta acaba de desplazarse hacia una nueva frontera de eficiencia con el lanzamiento de Gemma 4. Desarrollada bajo la misma base tecnológica de Gemini 3, esta familia de modelos abiertos se presenta como una respuesta a la demanda de los desarrolladores de disponer de capacidades de razonamiento profundo sin la dependencia absoluta de infraestructuras propietarias.

Google ha estructurado esta propuesta bajo una licencia Apache 2.0, lo que plantea un escenario de soberanía digital relevante para las empresas que buscan control total sobre sus datos y procesos. ¿Es posible alcanzar niveles de inteligencia de vanguardia reduciendo drásticamente el número de parámetros necesarios?

What’s new in Gemma 4

Ver este vídeo en YouTube.

La respuesta que propone Gemma 4 se sustenta en una métrica que la compañía denomina inteligencia por parámetro. La familia se despliega en cuatro tamaños: Effective 2B (E2B), Effective 4B (E4B), una versión de 26B con arquitectura de Mezcla de Expertos (MoE) y una variante densa de 31B. Este último modelo ya ocupa la tercera posición en la clasificación global de modelos abiertos del Arena AI text leaderboard, superando en rendimiento a sistemas que le multiplican por veinte en volumen de parámetros. Para un directivo tecnológico, esta asimetría entre tamaño y capacidad representa una reducción sustancial en los costes operativos de hardware y una menor latencia en la ejecución de tareas críticas.

En el contexto de la computación en el borde o edge computing, los modelos E2B y E4B están diseñados para operar de forma nativa en dispositivos móviles e IoT. Google indica que estos modelos priorizan la multimodalidad y el procesamiento de baja latencia sobre el conteo bruto de parámetros, permitiendo que funciones de visión y audio funcionen sin conexión a la red en dispositivos como teléfonos Android o hardware de fabricantes como Qualcomm y MediaTek. Esta capacidad de ejecución local elimina las fricciones de privacidad y conectividad que suelen limitar el despliegue de IA en entornos industriales o de consumo masivo.

Sin embargo, el verdadero salto estratégico se observa en su orientación hacia los flujos de trabajo agénticos. Gemma 4 no se limita a la generación de texto; incluye soporte nativo para llamadas a funciones, salida estructurada en JSON e instrucciones de sistema. Estas herramientas permiten construir agentes autónomos capaces de interactuar con APIs externas y ejecutar secuencias de pasos lógicos de manera fiable. Richard Seroter, evangelista jefe de Google Cloud, sostiene que la IA empresarial requiere modelos que ejecuten lógica compleja manteniendo los datos dentro de límites seguros, un equilibrio que esta nueva familia intenta resolver mediante su despliegue en entornos controlados.

La versatilidad de la arquitectura permite que el modelo de 26B MoE active únicamente 3,8 mil millones de sus parámetros durante la inferencia, lo que optimiza la velocidad de respuesta (tokens por segundo). En contraste, el modelo denso de 31B se posiciona como la opción predilecta para tareas de ajuste fino (fine-tuning) donde la calidad bruta y la coherencia en tareas complejas de orquestación empresarial son la prioridad. Esta dualidad ofrece a los arquitectos de sistemas la posibilidad de elegir entre velocidad de ejecución o profundidad de análisis según el caso de uso.

Integración y soberanía en la nube

El despliegue de Gemma 4 en Google Cloud introduce capas de gestión que buscan atraer a sectores regulados. A través de Vertex AI, las organizaciones pueden provisionar recursos de cómputo específicos, manteniendo el control directo sobre la infraestructura de servicio. Existe, además, una integración con GKE (Google Kubernetes Engine) que permite el escalado dinámico de las cargas de trabajo de inferencia. Para equipos que requieren un aislamiento total, el modelo estará disponible en soluciones de Nube Soberana, incluyendo implementaciones air-gapped o en premisas, lo que responde a las crecientes normativas de residencia de datos en Europa.

Te puede interesar

La carrera por la utilidad cuántica: Telefónica Tech y el blindaje de la IA europea

Un aspecto técnico diferencial es la ampliación de la ventana de contexto. Mientras que los modelos para dispositivos móviles ofrecen 128K, las variantes mayores alcanzan los 256K. Esta capacidad permite procesar repositorios completos de código o documentos extensos en una sola consulta, una función vital para la generación de código offline y el soporte técnico automatizado. Pese a estas capacidades, la implementación efectiva de tales sistemas sigue dependiendo de la optimización del hardware; Google ha confirmado que los pesos de bfloat16 de los modelos grandes pueden ejecutarse de manera eficiente en una única GPU NVIDIA H100 de 80GB, lo que democratiza el acceso a la alta computación para empresas de tamaño medio.

La flexibilidad que otorga la licencia Apache 2.0 es, quizá, el movimiento más significativo para el ecosistema. Al eliminar las barreras restrictivas de uso comercial, Google fomenta la creación de variantes locales, como ya ocurrió con BgGPT en Bulgaria o aplicaciones de terapia contra el cáncer en la Universidad de Yale con versiones anteriores. La empresa busca que Gemma 4 se convierta en la base de un «Gemmaverse» que ya cuenta con más de 100.000 variantes desarrolladas por la comunidad.

La infraestructura de soporte se completa con el Agent Development Kit (ADK), un marco modular para el desarrollo de agentes, y la posibilidad de ejecutar modelos en Cloud Run utilizando GPUs NVIDIA RTX PRO 6000 (Blackwell). Este enfoque de pago por uso en GPUs serverless reduce la barrera de entrada para experimentos de alta intensidad sin comprometer grandes inversiones iniciales. En este sentido, la capacidad de los modelos para razonar en más de 140 idiomas de forma nativa amplía el radio de acción para compañías con operaciones globales que necesitan aplicaciones inclusivas y de alto rendimiento.

El cierre de este despliegue tecnológico plantea una tensión operativa para los departamentos de IT: la elección entre modelos propietarios cerrados, con su facilidad de uso pero menor control, frente a modelos abiertos como Gemma 4, que exigen una gestión más activa de la infraestructura a cambio de una soberanía total y una optimización de costes a largo plazo. La competitividad futura de las empresas españolas en el ámbito de la IA podría depender de su capacidad para integrar estas herramientas de código abierto en sus flujos de producción más sensibles.

Etiquetas

flujos de trabajo agénticos gemma 4 google cloud inferencia local inteligencia artificial empresarial licencia apache 2.0 modelos abiertos razonamiento avanzado soberanía digital vertex ai

Hernán Rodríguez

Editor en La Ecuación Digital. Analista y divulgador tecnológico con más de 30 años de experiencia en el estudio del impacto de la tecnología en la empresa y la economía.