Estás leyendo
Thinking Machines escala su infraestructura con la IA de Google

Thinking Machines escala su infraestructura con la IA de Google

  • Thinking Machines adopta la arquitectura NVIDIA GB300 en Google Cloud para duplicar la velocidad de entrenamiento de sus modelos de IA mediante el AI Hypercomputer.
Thinking Machines escala su infraestructura con la IA de Google

La carrera por la soberanía en la inteligencia artificial de frontera ha dejado de ser una cuestión exclusivamente algorítmica para convertirse en un desafío de ingeniería de sistemas a escala masiva. En este escenario, la capacidad de procesar volúmenes ingentes de datos con una latencia mínima determina quién lidera el mercado. Thinking Machines Lab ha dado un paso significativo en esta dirección al ampliar su acuerdo con Google Cloud, integrando las capacidades del AI Hypercomputer para acelerar el desarrollo de su plataforma y el entrenamiento de sus modelos de nueva generación.

El núcleo de esta expansión radica en la adopción de las instancias A4X Max, equipadas con la arquitectura NVIDIA Blackwell. Al convertirse en uno de los primeros usuarios en implementar el sistema NVIDIA GB300 NVL72, la firma busca resolver los cuellos de botella que tradicionalmente lastran el aprendizaje profundo.

Los datos preliminares sugieren que esta transición no es meramente incremental; Thinking Machines ha registrado incrementos de velocidad de hasta el doble en tareas de entrenamiento y servicio en comparación con las arquitecturas de GPU anteriores. Este rendimiento se apoya en la red Jupiter de Google Cloud, que facilita transferencias de pesos casi instantáneas, un requisito crítico para las cargas de trabajo de aprendizaje por refuerzo (Reinforcement Learning) que caracterizan la actividad de la compañía.

Sin embargo, la potencia bruta de cálculo es ineficaz si no se acompaña de una orquestación robusta del almacenamiento y los datos. La arquitectura de Thinking Machines utiliza una combinación de Google Kubernetes Engine (GKE) para la gestión de contenedores a gran escala y Spanner para el manejo de metadatos transaccionales. Al integrar estas herramientas con soluciones de almacenamiento en la nube y una capa de caché personalizada a nivel de nodo, la empresa asegura una continuidad operativa que permite el entrenamiento ininterrumpido. Este equilibrio es vital cuando se pretende escalar productos de ajuste fino como Tinker, mientras se mantienen cargas de trabajo de producción activas a nivel global.

Myle Ott, investigador fundacional de Thinking Machines Lab, señala que el uso de A4X Max y el stack integrado del AI Hypercomputer ha permitido a la organización operar a velocidades récord sin comprometer la fiabilidad necesaria. Para Ott, la clave reside en cómo la infraestructura de Google Cloud, que incluye remediación automatizada mediante Cluster Director, libera a su equipo de las fricciones logísticas del hardware, permitiéndoles centrar sus recursos en los aspectos diferenciales de su tecnología, especialmente en el aprendizaje por refuerzo.

Desde la perspectiva de Google Cloud, el movimiento refuerza su posición como proveedor de infraestructuras críticas para el sector tecnológico avanzado. Mark Lohmeyer, vicepresidente y director general de Infraestructura de Computación e IA en la firma, subraya que la colaboración busca ofrecer una arquitectura optimizada que combine hardware diseñado específicamente para estas tareas con modelos de consumo flexibles. El enfoque no se limita a proporcionar procesadores, sino a configurar un entorno donde el software abierto y el hardware propietario de NVIDIA converjan de forma transparente para el usuario profesional.

La complejidad de los flujos de trabajo en IA ha crecido exponencialmente, lo que obliga a las empresas a mirar más allá del componente individual. Ian Buck, vicepresidente de Hyperscale y HPC en NVIDIA, sostiene que la optimización a nivel de sistema es ahora el factor determinante. El GB300 NVL72 no solo aporta un salto en la potencia de procesamiento, sino que mejora drásticamente el ancho de banda de interconexión. Este avance es lo que permite reducir los tiempos de inactividad de los procesadores mientras esperan datos, mejorando lo que en el sector se conoce como «goodput» o rendimiento efectivo.

Te puede interesar
Comunicaciones críticas

Thinking Machines inició su andadura con el ecosistema de Google en 2025 y, en menos de un año, ha pasado de ser un usuario estándar a un socio que exprime los límites de la computación distribuida. Esta evolución refleja una tendencia más amplia en el sector tecnológico español y global: la migración hacia pilas tecnológicas integradas donde la red, el almacenamiento y la computación no funcionan como silos, sino como una unidad de procesamiento coherente.

La integración de estas tecnologías plantea, no obstante, retos operativos considerables. La gestión de clústeres de tal magnitud exige una monitorización constante y una capacidad de respuesta ante fallos de hardware que solo la automatización puede gestionar de forma rentable. Para los directivos del sector, la lección de este despliegue es clara: la ventaja competitiva no reside solo en el modelo de IA que se construye, sino en la resiliencia y eficiencia de la fábrica digital que lo produce.

A medida que los tamaños de los modelos crecen, la presión sobre los márgenes operativos de las empresas de IA aumenta. La eficiencia lograda por Thinking Machines mediante el AI Hypercomputer sugiere que la optimización de costes pasará necesariamente por una integración vertical profunda con los proveedores de nube. En un entorno donde la disponibilidad de GPU de alto rendimiento sigue siendo un factor de tensión en el mercado, asegurar el acceso a la arquitectura Blackwell y a sistemas de interconexión avanzados podría ser el factor que defina la supervivencia de los laboratorios de investigación frente a sus competidores en los próximos ejercicios.

Ver Comentarios (0)

Leave a Reply

Utilizamos cookies para facilitar la relación de los visitantes con nuestro contenido y para permitir elaborar estadísticas sobre las visitantes que recibimos. No se utilizan cookies con fines publicitarios ni se almacena información de tipo personal. Puede gestionar las cookies desde aquí.   
Privacidad