Editor en La Ecuación Digital. Analista y divulgador tecnológico con…
La carrera por la hegemonía en la inteligencia artificial generativa ha entrado en una fase donde la elocuencia del lenguaje cede el paso a la capacidad de ejecución autónoma. OpenAI ha hecho pública este jueves su nueva arquitectura, GPT-5.5 (internamente denominada «Spud»), un modelo que no se presenta simplemente como una mejora incremental en la generación de texto, sino como el motor de una nueva clase de computación agente.
La compañía dirigida por Sam Altman busca con este movimiento frenar el avance de Anthropic, cuyo modelo Claude ha logrado una tracción significativa en el sector empresarial durante los últimos meses, desafiando la posición dominante de ChatGPT.
Esta versión es el primer modelo base completamente reentrenado desde GPT-4.5 y llega en un momento de máxima tensión operativa. Según informes recogidos por The New Web, OpenAI se encontraba en un estado de «código rojo» desde finales de 2025, observando cómo la facturación recurrente de su principal competidor escalaba de los 9.000 a los 30.000 millones de dólares. El lanzamiento de GPT-5.5 es la respuesta técnica a esa erosión comercial, centrando sus capacidades en cuatro ejes críticos para el directivo: codificación agente, uso autónomo del ordenador, tareas de conocimiento complejo e investigación científica avanzada.
El giro hacia la autonomía: del chat al agente
La diferencia fundamental de esta arquitectura reside en su capacidad para gestionar lo que Greg Brockman, cofundador y presidente de OpenAI, define como tareas «desordenadas y de múltiples partes». A diferencia de sus predecesores, que requerían instrucciones granulares y una supervisión constante para evitar alucinaciones en el proceso, GPT-5.5 está diseñado para planificar, ejecutar y corregir sus propios flujos de trabajo con una dirección humana mínima. Esta capacidad de razonar a través del contexto y tomar medidas a lo largo del tiempo es lo que permite al sistema operar aplicaciones de correo, hojas de cálculo y calendarios de forma integrada.
En términos de rendimiento, el salto es cuantificable. El modelo ha alcanzado un 82,7% en Terminal-Bench 2.0, un test que evalúa flujos de trabajo complejos en línea de comandos. En contraste, Claude Opus 4.7 se queda en un 69,4% en la misma prueba. Bloomberg recoge las impresiones de Brockman, quien subraya que la experiencia es ahora mucho más intuitiva al ser capaz de lidiar con la ambigüedad de los problemas reales.
Sin embargo, el liderazgo no es absoluto en todos los frentes: en pruebas de razonamiento académico puro y sin herramientas, como «Humanity’s Last Exam», el modelo Pro de OpenAI (43,1%) todavía se sitúa por detrás de las propuestas de Anthropic (56,8%), sugiriendo que la optimización de OpenAI se ha volcado hacia la utilidad práctica y el uso de herramientas frente al conocimiento enciclopédico.
Eficiencia en la infraestructura y la alianza con NVIDIA
Uno de los desafíos históricos de los modelos de frontera es el aumento de la latencia a medida que crece la inteligencia. OpenAI afirma haber roto esta correlación. GPT-5.5 iguala la latencia por token de la versión 5.4, pero operando a un nivel cognitivo superior. Este hito se debe a un codesiseño profundo entre el software de OpenAI y el hardware de NVIDIA. El despliegue se apoya en sistemas de bastidor GB200 y GB300 NVL72, optimizados mediante algoritmos heurísticos escritos por la propia inteligencia artificial para equilibrar la carga de trabajo en los núcleos de las GPU.
La implementación interna en NVIDIA ofrece una métrica de lo que las grandes corporaciones pueden esperar. Justin Boitano, vicepresidente de computación empresarial en NVIDIA, ha señalado que el uso de Codex (ahora potenciado por GPT-5.5) ha permitido reducir ciclos de depuración de código que duraban días a tan solo unas horas. Más de 10.000 empleados de la firma de chips ya utilizan esta tecnología en funciones que van desde las finanzas hasta el desarrollo de productos. Para el directivo, la relevancia no reside solo en la velocidad, sino en la economía de escala: la nueva infraestructura permite una salida de tokens 50 veces superior por megavatio en comparación con generaciones anteriores, lo que hace viable la inferencia de modelos de frontera a escala empresarial.
Ciberseguridad: dos caminos para un mismo riesgo
El lanzamiento también pone de relieve una divergencia estratégica en la gestión de riesgos de seguridad entre los dos gigantes del sector. Mientras que Anthropic ha optado por un modelo restrictivo, limitando el acceso de su tecnología más potente en ciberseguridad, Claude Mythos, a apenas 40 socios seleccionados, OpenAI apuesta por una distribución algo más amplia pero segmentada. The New York Times destaca que OpenAI ha implementado clasificadores de riesgo más estrictos para el público general en GPT-5.5, pero ha habilitado una vía denominada «Trusted Access for Cyber».
Este programa permite que profesionales verificados que gestionan infraestructuras críticas, como redes eléctricas o suministros de agua, accedan a versiones con menos restricciones para tareas de defensa digital. Es una admisión implícita de que las mismas capacidades que permiten a GPT-5.5 encontrar una vulnerabilidad en un código complejo pueden ser instrumentalizadas. La clasificación del modelo bajo el Marco de Preparación de OpenAI es de riesgo «Alto» en capacidades biológicas y de ciberseguridad, aunque no ha alcanzado el nivel «Crítico».
Impacto en el flujo de trabajo científico y financiero
Más allá del código, la arquitectura Pro del modelo está demostrando una tenacidad inusual en la investigación científica. En genética y biología cuantitativa, el benchmark GeneBench muestra que GPT-5.5 puede razonar sobre datos ambiguos o con errores, resolviendo problemas que habitualmente ocuparían varios días a un experto humano. Un ejemplo concreto es la colaboración con el Jackson Laboratory for Genomic Medicine, donde el modelo analizó un conjunto de datos de expresión génica con 28.000 genes, produciendo en minutos un informe que tradicionalmente habría requerido meses de trabajo analítico.
En el ámbito financiero y de gestión, el modelo ha sido testado en la revisión de más de 24.000 formularios fiscales K-1, acelerando la tarea en dos semanas respecto al año anterior. Esta capacidad de síntesis y análisis documental pesado es donde OpenAI espera que las empresas encuentren el retorno de la inversión, compensando un precio de API que se ha duplicado respecto a la generación anterior.
Costes y disponibilidad: la eficiencia como mitigador
La estructura de precios refleja la ambición y el coste de computación del nuevo modelo. El acceso a través de API para desarrolladores se sitúa en 5 dólares por millón de tokens de entrada para la versión estándar y escala hasta los 30 dólares en la versión Pro. A pesar del incremento, la compañía sostiene que la mayor eficiencia en el uso de tokens, el modelo necesita menos «palabras» para llegar a la misma solución, resulta en un coste total por tarea inferior en la mayoría de los flujos de trabajo empresariales.
Por el momento, el acceso está limitado a los suscriptores de pago de ChatGPT (Plus, Pro, Business y Enterprise) y Codex. La disponibilidad de la API se ha retrasado brevemente mientras se terminan de ajustar los protocolos de seguridad necesarios para el servicio a gran escala. OpenAI también ha introducido un «Modo Rápido» en Codex que genera tokens a una velocidad un 50% superior, aunque con un recargo económico significativo, pensando en entornos donde el tiempo de respuesta es la variable crítica.
El cierre de esta etapa de lanzamientos deja una tensión operativa latente. Aunque GPT-5.5 ha recuperado el liderazgo en 14 de los principales benchmarks frente a sus competidores, la verdadera prueba de fuego será su integración en el día a día de las empresas españolas y globales.
La transformación del modelo en un «compañero de investigación» o en un «jefe de personal» digital, como lo describen algunos probadores tempranos, dependerá de su fiabilidad en entornos de producción donde los errores no son simples fallos de chat, sino riesgos para el negocio.
Editor en La Ecuación Digital. Analista y divulgador tecnológico con más de 30 años de experiencia en el estudio del impacto de la tecnología en la empresa y la economía.
