Estás leyendo
NVIDIA lanza la plataforma Rubin para reducir el coste de la IA y escalar modelos abiertos y razonamiento agéntico

NVIDIA lanza la plataforma Rubin para reducir el coste de la IA y escalar modelos abiertos y razonamiento agéntico

  • NVIDIA presenta Rubin, una plataforma de IA diseñada con extreme codesign que reduce hasta diez veces el coste por token y redefine el escalado de modelos razonadores.
Plataforma Rubin - NVIDIA

La presentación de Rubin en el CES 2026 no responde a la lógica habitual de una nueva generación de chips. NVIDIA plantea algo distinto: una arquitectura concebida desde el inicio como un único superordenador de IA, en el que cada componente, desde el silicio hasta el software, se diseña de forma conjunta para responder a un problema concreto que ya domina el sector: cómo escalar modelos cada vez más grandes, más razonadores y más persistentes sin que el coste, el consumo energético y la complejidad operativa se disparen.

Como explicó Jensen Huang durante su keynote, la industria se enfrenta a una combinación inédita de presiones. Los modelos crecen por órdenes de magnitud, la inferencia ha dejado de ser un proceso de “una sola respuesta” para convertirse en razonamiento en tiempo real, y cada generación exige una reducción drástica del coste por token. En ese contexto, Rubin aparece, en palabras del propio Huang, “exactamente en el momento adecuado”.

Plataforma Rubin: extreme codesign como respuesta al límite del silicio

Rubin es la primera plataforma de NVIDIA construida íntegramente bajo el principio de extreme codesign. No se trata de optimizar un componente concreto, sino de rediseñar simultáneamente seis chips que funcionan como un sistema único: la CPU Vera, la GPU Rubin, el switch NVLink 6, el ConnectX-9 SuperNIC, el BlueField-4 DPU y el switch Spectrum-6 Ethernet.

La razón de este enfoque es estructural. Huang lo resumió con claridad al explicar que el crecimiento de los modelos y de los tokens ya no puede sostenerse únicamente aumentando el número de transistores. La ley de Moore se ha ralentizado, y aunque cada chip individual mejore, el salto necesario solo es posible si todo el sistema evoluciona al mismo tiempo. De ahí una afirmación poco habitual en un lanzamiento de producto: en esta generación, NVIDIA no tuvo alternativa a rediseñar cada pieza del sistema.

El resultado es una plataforma que, según los datos presentados, reduce hasta diez veces el coste de generación de tokens de inferencia frente a Blackwell y permite entrenar modelos MoE con cuatro veces menos GPUs. No es solo un avance técnico; es un cambio directo en la economía de la IA.

Vera y Rubin: CPU y GPU pensadas para razonamiento y escala

En el centro de la plataforma se encuentran la CPU Vera y la GPU Rubin, diseñadas de forma conjunta desde el inicio. Vera no es una CPU generalista al uso. Está orientada explícitamente a cargas de trabajo de razonamiento agéntico, movimiento intensivo de datos y coordinación de sistemas de IA a gran escala. Con 88 núcleos Olympus personalizados, compatibilidad Armv9.2 y conectividad NVLink-C2C ultrarrápida, Vera prioriza eficiencia energética y ancho de banda sostenido frente a picos de rendimiento aislados.

Rubin, por su parte, incorpora una tercera generación del Transformer Engine y alcanza hasta 50 petaflops de computación NVFP4 para inferencia. Durante el keynote, Huang insistió en que formatos como FP4 o FP8 no explican por sí solos el salto de rendimiento. La clave está en que el tensor core es capaz de ajustar dinámicamente la precisión y la estructura del cálculo dentro del propio hardware, algo imposible de replicar en software a esas velocidades.

Esta combinación permite que, con apenas 1,6 veces más transistores que Blackwell, Rubin ofrezca saltos de rendimiento muy superiores, tanto en entrenamiento como en inferencia prolongada.

NVLink 6 y Spectrum-X: cuando la red deja de ser un cuello de botella

Uno de los mensajes más reiterados por Huang fue que, en IA a gran escala, el problema ya no es solo computar, sino mover datos. NVLink 6 representa la sexta generación del interconector propietario de NVIDIA y está diseñado para que cada GPU pueda comunicarse con todas las demás de forma simultánea y coherente.

Cada GPU dispone de hasta 3,6 TB/s de ancho de banda, y un rack Vera Rubin NVL72 alcanza los 260 TB/s, una cifra que Huang comparó explícitamente con el tráfico total de internet para ilustrar la escala del sistema. Además de velocidad, NVLink 6 introduce computación en red para acelerar operaciones colectivas y mejorar resiliencia y mantenimiento.

En paralelo, Spectrum-6 Ethernet y Spectrum-X Ethernet Photonics llevan esa filosofía al mundo Ethernet. Con óptica coempaquetada, SerDes de 200 Gbps y tejidos optimizados para IA, NVIDIA busca mantener la simplicidad operativa de Ethernet sin sacrificar latencia ni eficiencia. Según la compañía, estas soluciones ofrecen hasta cinco veces más eficiencia energética y hasta diez veces más fiabilidad frente a enfoques tradicionales, un factor clave cuando se habla de centros de datos de cientos de megavatios o incluso gigavatios.

BlueField-4 y el nacimiento del almacenamiento nativo para IA

Uno de los anuncios más reveladores de Rubin no tiene que ver con cómputo puro, sino con memoria y almacenamiento. La introducción de la Inference Context Memory Storage Platform, impulsada por BlueField-4, responde a un problema que se ha vuelto crítico con los modelos razonadores: la gestión del contexto.

Cada token generado implica leer y escribir grandes volúmenes de memoria de trabajo, el llamado KV cache. A medida que los modelos mantienen conversaciones más largas, o múltiples agentes operan en paralelo, esa memoria deja de caber en la HBM de la GPU. Rubin introduce una nueva capa de almacenamiento de contexto dentro del propio rack, con latencias y ancho de banda comparables al resto del sistema.

BlueField-4 no solo gestiona ese almacenamiento, sino que también asume funciones de virtualización, seguridad y aislamiento. Con la arquitectura ASTRA, NVIDIA propone un punto único de control y confianza para entornos multi-tenant y bare-metal, una exigencia creciente en las llamadas “AI factories”.

Seguridad, fiabilidad y operación a escala

Rubin es también la primera plataforma a escala de rack que integra Confidential Computing de forma completa, cifrando datos en tránsito, en reposo y durante el cálculo, tanto en CPU como en GPU y enlaces NVLink. En paralelo, la segunda generación del RAS Engine introduce chequeos de salud en tiempo real, tolerancia a fallos y mantenimiento predictivo.

Estos elementos, menos visibles que los benchmarks, son clave para operar sistemas que pueden pesar toneladas, consumir decenas de kilovatios por rack y costar miles de millones de dólares a nivel de centro de datos. Huang lo expresó de forma implícita al subrayar que la productividad de una “AI factory” depende tanto de la fiabilidad como del rendimiento bruto.

Te puede interesar
Europa Tecnología

Dos formatos, un mismo enfoque sistémico

NVIDIA ofrecerá Rubin en dos configuraciones principales. El Vera Rubin NVL72 integra 72 GPUs Rubin, 36 CPUs Vera, NVLink 6, ConnectX-9 y BlueField-4 en un sistema unificado y seguro. Para otros escenarios, el HGX Rubin NVL8 conecta ocho GPUs Rubin mediante NVLink y está orientado a plataformas x86 de generación de IA y HPC.

Ambas configuraciones se integran en DGX SuperPOD, que actúa como referencia para despliegues a gran escala y se apoya en Mission Control para la operación del sistema.

Ecosistema: Rubin como estándar de facto para la próxima frontera

La lista de empresas y organizaciones que han anunciado soporte o adopción de Rubin es extensa e incluye a los principales proveedores cloud, fabricantes de sistemas y laboratorios de IA. Desde Microsoft, que desplegará racks NVL72 en sus futuras “AI superfactories”, hasta CoreWeave, que integrará Rubin en su plataforma operativa, el mensaje es claro: la industria se prepara para una nueva fase de escalado.

También destaca la colaboración ampliada con Red Hat, que optimizará su stack de Linux, OpenShift y Red Hat AI para Rubin, reforzando la idea de que la plataforma no se limita al hardware, sino que abarca todo el entorno operativo.

Un punto de inflexión para la computación de IA

Rubin no es solo una evolución de Blackwell ni un adelanto tecnológico aislado. Es la materialización de una tesis que Huang repitió a lo largo de su intervención: para seguir avanzando hacia la próxima frontera de la IA, la industria necesita sistemas completos, no componentes optimizados de forma independiente.

En ese sentido, la plataforma simboliza un cambio de escala. NVIDIA deja de competir únicamente como proveedor de GPUs o incluso de plataformas, y se consolida como arquitecto de infraestructuras integrales para la era de la inteligencia artificial. La pregunta que queda abierta no es si Rubin funciona, las cifras y los socios apuntan a que sí, sino cómo este enfoque condicionará las decisiones del resto del ecosistema en los próximos años.

Porque, como dejó entrever Huang al cerrar su keynote, la carrera ya no consiste solo en construir modelos más grandes, sino en decidir quién define la arquitectura sobre la que se construirá la próxima generación de inteligencia.

Ver Comentarios (0)

Leave a Reply

Utilizamos cookies para facilitar la relación de los visitantes con nuestro contenido y para permitir elaborar estadísticas sobre las visitantes que recibimos. No se utilizan cookies con fines publicitarios ni se almacena información de tipo personal. Puede gestionar las cookies desde aquí.   
Privacidad