Estás leyendo
Google Cloud lanza las TPU Ironwood y las nuevas máquinas Axion para la era de la inferencia

Google Cloud lanza las TPU Ironwood y las nuevas máquinas Axion para la era de la inferencia

  • Google Cloud anuncia la disponibilidad general de las TPU Ironwood y presenta las máquinas virtuales Axion, optimizadas para cargas de trabajo de inferencia y computación general.
Google Cloud lanza las TPU Ironwood y las nuevas máquinas Axion

La aceleración de la inteligencia artificial está entrando en una fase distinta. Ya no se trata solo de entrenar modelos cada vez más grandes, sino de hacerlos operar a escala, con fluidez y bajo demanda. En ese punto se sitúa el nuevo anuncio de Google Cloud: la disponibilidad general de las TPU Ironwood, su chip de séptima generación, y la presentación de nuevas máquinas virtuales Axion, basadas en arquitectura Arm, orientadas a la computación general de alta eficiencia.

Según explican Amin Vahdat y Mark Lohmeyer, vicepresidentes de Infraestructura e IA en Google Cloud, esta evolución marca una “nueva era de la inferencia”, en la que la prioridad ya no es solo la capacidad de entrenamiento, sino la orquestación entre la computación general y la aceleración del aprendizaje automático. En la práctica, esto implica un diseño vertical en el que hardware, software y red convergen bajo un mismo modelo operativo.

Ironwood: la TPU más potente de Google hasta la fecha

La nueva TPU Ironwood se posiciona como el chip más avanzado de la compañía. Con un rendimiento hasta diez veces superior al de la TPU v5p y cuatro veces más eficiente que su predecesora Trillium (TPU v6e), Ironwood está diseñada para cargas de trabajo de entrenamiento e inferencia de gran escala. Es, además, la primera TPU optimizada para flujos de trabajo agénticos, que requieren coordinación dinámica entre tareas de cálculo general y aceleradores de IA.

Anthropic, desarrolladora de Claude, ha sido uno de los primeros grandes clientes en adoptarla. Según James Bradbury, responsable de infraestructura de la compañía, Ironwood permitirá “escalar de forma más eficiente, manteniendo velocidad y fiabilidad para millones de usuarios”. Otras empresas, como Lightricks y Essential AI, destacan la eficiencia energética y la integración sin fricciones del sistema.

Ironwood puede conectar hasta 9.216 chips en un único superpod, enlazados mediante la red Inter-Chip Interconnect (ICI), capaz de transmitir datos a 9,6 Tb/s y compartir hasta 1,77 Petabytes de memoria HBM. Este nivel de interconexión elimina cuellos de botella en modelos masivos y permite ampliar el sistema a agrupaciones de cientos de miles de TPU mediante la red óptica Jupiter.

La arquitectura también incorpora Conmutación de Circuitos Ópticos (OCS), un sistema de red reconfigurable capaz de reasignar rutas de datos de forma instantánea para mantener la disponibilidad del servicio. En un contexto en el que la demanda de inferencia crece a ritmos inéditos, la fiabilidad del sistema se convierte en una ventaja competitiva.

La integración en AI Hypercomputer

Ironwood forma parte del ecosistema AI Hypercomputer, la superplataforma integrada de Google que combina cálculo, red, almacenamiento y software bajo un modelo de diseño conjunto. Según datos de IDC citados por la compañía, los clientes de AI Hypercomputer han obtenido un retorno del 353% en tres años, con reducciones de costes de TI de hasta el 28%.

La capa de software juega aquí un papel decisivo. Google ha incorporado Cluster Director en Kubernetes Engine para optimizar la programación y resiliencia de clústeres, junto con mejoras en MaxText, su entorno abierto para entrenamiento de modelos de lenguaje a gran escala. En el ámbito de la inferencia, el soporte ampliado de vLLM permite alternar entre GPU y TPU con ajustes mínimos, mientras GKE Inference Gateway reduce la latencia inicial hasta en un 96% y los costes de servicio en torno al 30%.

Este enfoque conjunto —desde el chip hasta la orquestación de cargas en contenedores— refuerza la apuesta de Google por un modelo de computación integral. En realidad, se trata de una continuación de una estrategia iniciada hace una década con la primera TPU, que dio origen a la arquitectura Transformer, base de la mayoría de modelos modernos de IA.

Axion: eficiencia generalizada en arquitectura Arm

La otra pieza del anuncio es Axion, la familia de CPU personalizadas con arquitectura Arm Neoverse®, diseñadas para cargas de trabajo de propósito general. La nueva serie N4A, ya disponible en vista previa, promete una relación precio-rendimiento hasta dos veces superior a las instancias x86 actuales. Le acompaña C4A metal, la primera instancia bare-metal de Google Cloud basada en Arm, pensada para entornos especializados, desde desarrollo en Android hasta simulaciones industriales.

Cada línea de producto tiene un perfil distinto. N4A combina hasta 64 vCPU y 512 GB de memoria DDR5, mientras C4A alcanza 72 vCPU y C4A metal, 96 vCPU con 768 GB de memoria. Todas integran almacenamiento Hyperdisk y redes de hasta 100 Gbps.

Las primeras pruebas apuntan a mejoras sustanciales. Vimeo reporta un incremento del 30% en rendimiento de transcodificación frente a máquinas x86, mientras ZoomInfo habla de una mejora del 60% en la relación precio-rendimiento en flujos de datos críticos. Rise, por su parte, afirma haber reducido un 20% el consumo de computación en sus servicios publicitarios, manteniendo latencias estables y menores costes operativos.

El impacto, según Google, va más allá de la eficiencia técnica. Los procesadores Axion están pensados para la infraestructura base que alimenta la IA: preparación de datos, ejecución de microservicios y servicios web. En otras palabras, constituyen la capa de soporte sobre la que los aceleradores especializados como Ironwood despliegan los modelos de inteligencia artificial.

Un tándem para la era de la inferencia

El lanzamiento conjunto de Ironwood y Axion refuerza una idea de fondo: la computación de próxima generación será híbrida, combinando aceleradores específicos para IA con CPU eficientes que gestionen el flujo de datos y las operaciones generales. En este nuevo equilibrio, la velocidad deja de ser el único factor. También importa la capacidad de mantener un rendimiento constante, reducir el coste por inferencia y asegurar continuidad a escala de centros de datos.

Google Cloud, que acumula una década de experiencia en diseño de chips personalizados, extiende así su enfoque de cooptimización a todos los niveles de su infraestructura. Y aunque la competencia en el terreno del silicio —particularmente con Nvidia y AWS— es intensa, su estrategia de integración vertical busca diferenciarse en la ecuación que más valor genera para los clientes: rendimiento, eficiencia y control operativo.

La compañía ha abierto ya los registros para probar tanto TPU Ironwood como las instancias N4A y C4A metal. En la práctica, estas plataformas no solo actualizan el catálogo de Google Cloud, sino que delinean cómo podría funcionar la inteligencia artificial en producción durante la próxima década: un ecosistema donde la inferencia se convierte en la nueva unidad de medida del progreso.

Utilizamos cookies para facilitar la relación de los visitantes con nuestro contenido y para permitir elaborar estadísticas sobre las visitantes que recibimos. No se utilizan cookies con fines publicitarios ni se almacena información de tipo personal. Puede gestionar las cookies desde aquí.   
Privacidad