Thinking Machines escala su infraestructura con la IA de Google

Thinking Machines adopta la arquitectura NVIDIA GB300 en Google Cloud para duplicar la velocidad de entrenamiento de sus modelos de IA mediante el AI Hypercomputer.

La carrera por la soberanía en la inteligencia artificial de frontera ha dejado de ser una cuestión exclusivamente algorítmica para convertirse en un desafío de ingeniería de sistemas a escala masiva. En este escenario, la capacidad de procesar volúmenes ingentes de datos con una latencia mínima determina quién lidera el mercado. Thinking Machines Lab ha dado un paso significativo en esta dirección al ampliar su acuerdo con Google Cloud, integrando las capacidades del AI Hypercomputer para acelerar el desarrollo de su plataforma y el entrenamiento de sus modelos de nueva generación.

El núcleo de esta expansión radica en la adopción de las instancias A4X Max, equipadas con la arquitectura NVIDIA Blackwell. Al convertirse en uno de los primeros usuarios en implementar el sistema NVIDIA GB300 NVL72, la firma busca resolver los cuellos de botella que tradicionalmente lastran el aprendizaje profundo.

Los datos preliminares sugieren que esta transición no es meramente incremental; Thinking Machines ha registrado incrementos de velocidad de hasta el doble en tareas de entrenamiento y servicio en comparación con las arquitecturas de GPU anteriores. Este rendimiento se apoya en la red Jupiter de Google Cloud, que facilita transferencias de pesos casi instantáneas, un requisito crítico para las cargas de trabajo de aprendizaje por refuerzo (Reinforcement Learning) que caracterizan la actividad de la compañía.

Sin embargo, la potencia bruta de cálculo es ineficaz si no se acompaña de una orquestación robusta del almacenamiento y los datos. La arquitectura de Thinking Machines utiliza una combinación de Google Kubernetes Engine (GKE) para la gestión de contenedores a gran escala y Spanner para el manejo de metadatos transaccionales. Al integrar estas herramientas con soluciones de almacenamiento en la nube y una capa de caché personalizada a nivel de nodo, la empresa asegura una continuidad operativa que permite el entrenamiento ininterrumpido. Este equilibrio es vital cuando se pretende escalar productos de ajuste fino como Tinker, mientras se mantienen cargas de trabajo de producción activas a nivel global.

Myle Ott, investigador fundacional de Thinking Machines Lab, señala que el uso de A4X Max y el stack integrado del AI Hypercomputer ha permitido a la organización operar a velocidades récord sin comprometer la fiabilidad necesaria. Para Ott, la clave reside en cómo la infraestructura de Google Cloud, que incluye remediación automatizada mediante Cluster Director, libera a su equipo de las fricciones logísticas del hardware, permitiéndoles centrar sus recursos en los aspectos diferenciales de su tecnología, especialmente en el aprendizaje por refuerzo.

Desde la perspectiva de Google Cloud, el movimiento refuerza su posición como proveedor de infraestructuras críticas para el sector tecnológico avanzado. Mark Lohmeyer, vicepresidente y director general de Infraestructura de Computación e IA en la firma, subraya que la colaboración busca ofrecer una arquitectura optimizada que combine hardware diseñado específicamente para estas tareas con modelos de consumo flexibles. El enfoque no se limita a proporcionar procesadores, sino a configurar un entorno donde el software abierto y el hardware propietario de NVIDIA converjan de forma transparente para el usuario profesional.

La complejidad de los flujos de trabajo en IA ha crecido exponencialmente, lo que obliga a las empresas a mirar más allá del componente individual. Ian Buck, vicepresidente de Hyperscale y HPC en NVIDIA, sostiene que la optimización a nivel de sistema es ahora el factor determinante. El GB300 NVL72 no solo aporta un salto en la potencia de procesamiento, sino que mejora drásticamente el ancho de banda de interconexión. Este avance es lo que permite reducir los tiempos de inactividad de los procesadores mientras esperan datos, mejorando lo que en el sector se conoce como «goodput» o rendimiento efectivo.

Te puede interesar

Telefónica asume la evolución de la red de emergencias de Madrid

Thinking Machines inició su andadura con el ecosistema de Google en 2025 y, en menos de un año, ha pasado de ser un usuario estándar a un socio que exprime los límites de la computación distribuida. Esta evolución refleja una tendencia más amplia en el sector tecnológico español y global: la migración hacia pilas tecnológicas integradas donde la red, el almacenamiento y la computación no funcionan como silos, sino como una unidad de procesamiento coherente.

La integración de estas tecnologías plantea, no obstante, retos operativos considerables. La gestión de clústeres de tal magnitud exige una monitorización constante y una capacidad de respuesta ante fallos de hardware que solo la automatización puede gestionar de forma rentable. Para los directivos del sector, la lección de este despliegue es clara: la ventaja competitiva no reside solo en el modelo de IA que se construye, sino en la resiliencia y eficiencia de la fábrica digital que lo produce.

A medida que los tamaños de los modelos crecen, la presión sobre los márgenes operativos de las empresas de IA aumenta. La eficiencia lograda por Thinking Machines mediante el AI Hypercomputer sugiere que la optimización de costes pasará necesariamente por una integración vertical profunda con los proveedores de nube. En un entorno donde la disponibilidad de GPU de alto rendimiento sigue siendo un factor de tensión en el mercado, asegurar el acceso a la arquitectura Blackwell y a sistemas de interconexión avanzados podría ser el factor que defina la supervivencia de los laboratorios de investigación frente a sus competidores en los próximos ejercicios.

Etiquetas

a4x max ai hypercomputer computación en la nube entrenamiento de modelos gke google google cloud infraestructura ai inteligencia artificial nvidia nvidia gb300 thinking machines

Thinking Machines escala su infraestructura con la IA de Google

La reindustrialización española ante el espejo de la soberanía

SUSE y NVIDIA lanzan AI Factory para la IA soberana

Internxt lanza Send para competir con WeTransfer en seguridad

Telefónica digitaliza la logística de Grupo Gallo con una plataforma habilitada para IA

Sopra Steria impulsa la digitalización en Baleares con VÈRTEX

La reindustrialización española ante el espejo de la soberanía

Europa ante la carrera tecnológica global: cortar, simplificar e incentivar como estrategia digital

Reino Unido se prepara para su mayor inversión en infraestructura de IA

Honor 600 Series integrará el primer modelo de vídeo multimodal

OPPO Find X9 Ultra: El cambio de paradigma en la computación óptica y el rendimiento móvil

HONOR lidera el crecimiento global móvil en un mercado a la baja

Samsung Buds4: la ergonomía computacional se pone al servicio del audio de alta fidelidad

OPPO presenta soluciones innovadoras basadas en IA y las nuevas OPPO Air Glass 3 en el MWC 2024

Samsung y El Ganso se unen para personalizar los nuevos Galaxy Z Flip4

Amazon presenta la nueva generación del Echo Show 8 y el Echo Show 5

Amazon reinterpreta el Echo Show con una pantalla HD de 10 pulgadas rotatoria

Amazon introduce las videollamadas grupales con Alexa y los dispositivos Echo

Huawei lanza en España los FreeBuds 7i con cancelación de ruido adaptativa

Apple lanza los AirPods Pro 3 con medición de frecuencia cardiaca y mejoras en cancelación de ruido

Huawei lanza los FreeBuds Pro 4 con cancelación de ruido y reproducción de audio sin pérdidas

Leave a Reply Cancel reply