Editor en La Ecuación Digital. Analista y divulgador tecnológico con…
La nueva generación de modelos de OpenAI llega con una declaración de intenciones poco habitual: acercarse al rendimiento de especialistas humanos en tareas que, hasta hace poco, parecían fuera del alcance de la automatización.
GPT-5.2, en sus variantes Instant, Thinking y Pro, se posiciona como una herramienta diseñada para el conocimiento profesional y los proyectos prolongados, áreas donde la fiabilidad y la estructura del output condicionan su utilidad real. La primera impresión, a la luz de los resultados compartidos, es que el modelo redefine los límites de lo que puede ejecutarse de extremo a extremo con supervisión limitada.
Aunque la compañía ya apuntaba en lanzamientos anteriores a una mayor productividad, esta versión introduce métricas que pretenden demostrar avances tangibles. Según datos internos, el modelo supera o iguala el rendimiento de profesionales en el 70,9 por ciento de las comparaciones del conjunto GDPval, una evaluación que incluye tareas de sectores que representan gran parte del PIB estadounidense.
Esto implica actividades como presentaciones, hojas financieras, diagramas de procesos industriales o materiales operativos. Lo llamativo es la combinación de velocidad y coste: más de once veces más rápido y por debajo del 1 por ciento del coste relativo a los especialistas evaluados. Son afirmaciones ambiciosas que, sin embargo, obligan a matizar que estos resultados se obtienen en escenarios bien definidos y con un fuerte control de calidad.
La distancia con la generación anterior se evidencia en el rendimiento del modelo en codificación. GPT-5.2 Thinking alcanza un 55,6 por ciento en SWE-Bench Pro, una evaluación que incorpora repositorios reales de cuatro lenguajes y reduce la posibilidad de contaminación. Aunque la cifra pueda parecer modesta en abstracto, representa un avance relevante frente al 50,8 por ciento previo y sugiere mayor estabilidad en el desarrollo de parches funcionales. En tareas verificadas, el modelo sube al 80 por ciento, lo que lo acerca a un nivel operativo capaz de reducir la intervención manual en refactorización, depuración y creación de componentes completos.
Uno de los elementos más frecuentes en el discurso técnico de los últimos meses es la capacidad de mantener coherencia en contextos extensos. GPT-5.2 refuerza este punto con un rendimiento casi perfecto en variantes de MRCRv2 a lo largo de cientos de miles de tokens. La mejora no solo es cuantitativa: permite manejar informes de cientos de páginas, contratos largos o conjuntos de archivos sin perder referencias internas, una tarea que se resistía incluso a modelos recientes. En la práctica, esta ampliación incrementa la utilidad del sistema en sectores como consultoría, legal, auditoría técnica o investigación aplicada.
El componente visual también experimenta una mejora apreciable. En evaluaciones como CharXiv Reasoning, orientadas a la interpretación de figuras científicas, el modelo reduce a la mitad los errores respecto a GPT-5.1. En ScreenSpot-Pro, su precisión en capturar relaciones espaciales dentro de interfaces gráficas crece hasta el 86,3 por ciento. Esta habilidad es especialmente valiosa en equipos de producto, soporte técnico o ingeniería, donde la lectura de paneles, dashboards o diagramas complejos influye directamente en la toma de decisiones.
En paralelo, el uso de herramientas —crítico para construir agentes operativos— muestra un avance significativo. El modelo alcanza el 98,7 por ciento de aciertos en Tau2-bench para telecomunicaciones, una señal de que la coordinación entre pasos, llamadas a APIs y decisiones encadenadas empieza a tener la consistencia necesaria para sistemas productivos. Empresas como Triple Whale afirman que pudieron sustituir configuraciones multiagente, antes frágiles y costosas de mantener, por un único agente con más de veinte herramientas. Aunque este tipo de testimonios no permite extrapolaciones amplias, sí ilustra que emergen patrones de estabilidad en arquitecturas anteriormente problemáticas.
En ciencia y matemáticas, el salto también es perceptible. GPT-5.2 Pro roza el 93 por ciento en GPQA Diamond, un conjunto que exige conocimientos de física, química y biología difíciles de resolver sin competencias profundas. En matemáticas avanzadas, el modelo sube al 40,3 por ciento en FrontierMath (Tier 1–3), un incremento que, pese a no resolver la complejidad intrínseca de estos desafíos, demuestra que los modelos comienzan a aportar sugerencias estructuradas en espacios formales donde cada paso debe ser verificable. Lo interesante es que investigadores ya han conseguido emplear GPT-5.2 para explorar demostraciones en teoría estadística, aunque estas interacciones requieren validación estricta y no sustituyen la revisión humana.
A pesar de estos avances, la propia compañía reconoce que hay limitaciones. La tasa de errores por respuesta baja del 8,8 al 6,2 por ciento, una mejora apreciable pero insuficiente para usos críticos sin verificación humana. Los resultados muestran que buena parte de las respuestas contienen múltiples afirmaciones, por lo que un solo error implica revisar la producción completa. Además, se mantiene la advertencia general: en ámbitos regulados, sanitarios o financieros, cualquier decisión debe apoyarse en controles externos. El modelo sigue siendo probabilístico, y su fiabilidad depende más del diseño del flujo de trabajo que de una supuesta infalibilidad técnica.
La estrategia comercial añade otra capa de interpretación. GPT-5.2 incrementa el precio por millón de tokens respecto a GPT-5.1, aunque OpenAI argumenta que su eficiencia reduce el coste final por tarea. La estructura de tarifas, con descuentos del 90 por ciento en inputs cacheados, apunta a modelos de uso intensivo en agentes persistentes y aplicaciones empresariales. En ChatGPT, la adopción será progresiva, con GPT-5.1 disponible durante tres meses antes de su retirada, un calendario que probablemente busca evitar disrupciones en entornos productivos.
El despliegue se apoya en la infraestructura de Microsoft Azure y GPUs de NVIDIA (H100, H200 y GB200-NVL72), un recordatorio de que la disponibilidad de computación sigue siendo un factor determinante para el avance de modelos de frontera. Esta colaboración, reiterada en los últimos ciclos de lanzamientos, apunta a una carrera industrial en la que la capacidad de escalar entrenamiento se vuelve tan crítica como los propios algoritmos.
La introducción de protecciones adicionales —incluido un sistema de predicción de edad para limitar contenido sensible— forma parte del esfuerzo por reforzar la seguridad, un área donde la presión regulatoria en Europa y Estados Unidos se intensifica. Lo relevante es que OpenAI admite explícitamente carencias, como las sobre-negativas en ciertos casos, y afirma estar trabajando para reducir rechazos injustificados sin comprometer seguridad.
Queda por ver cómo impactará GPT-5.2 en las prácticas laborales reales. Las mejoras en codificación, razonamiento extenso y manejo de herramientas sugieren un desplazamiento progresivo hacia la automatización parcial de tareas antes consideradas demasiado abiertas o cambiantes. Sin embargo, la utilidad práctica dependerá de la capacidad de las organizaciones para integrar estos modelos en procesos coherentes y supervisados. Lo que sí parece claro es que la frontera del trabajo asistido por IA se mueve con rapidez, y la llegada de GPT-5.2 introduce un nuevo conjunto de expectativas —y tensiones— en torno a productividad, precisión y dependencia tecnológica.
Disponibilidad y estructura de precios
La distribución de GPT-5.2 arranca de forma escalonada dentro de ChatGPT y se dirige primero a los planes de pago, desde Plus hasta Enterprise. OpenAI sostiene que este despliegue progresivo permite evitar interrupciones en el servicio, de modo que algunos usuarios podrían no ver los nuevos modelos de inmediato. Durante los próximos tres meses, GPT-5.1 seguirá activo como modelo heredado para suscriptores antes de su retirada definitiva en la plataforma, un periodo que busca facilitar la transición en entornos donde los flujos de trabajo aún dependen de versiones anteriores.
En paralelo, la nomenclatura entre ChatGPT y la API mantiene la correspondencia habitual. Las variantes Instant, Thinking y Pro están disponibles hoy en los endpoints de Respuestas y Chat Completions bajo las denominaciones gpt-5.2-chat-latest, gpt-5.2 y gpt-5.2-pro. Los desarrolladores pueden ajustar el parámetro de razonamiento en la versión Pro y acceder al nuevo nivel xhigh, pensado para tareas donde la calidad del razonamiento pesa más que la latencia o el coste computacional.
El modelo incorpora una estructura de precios más elevada que la de GPT-5.1, aunque OpenAI apunta que la mayor eficiencia por token compensa parte del incremento. GPT-5.2 se sitúa en 1,75 dólares por millón de tokens de entrada y 14 dólares por millón de salida, con un descuento del 90 por ciento en entradas cacheadas. La variante Pro eleva la tarifa a 21 dólares por millón de tokens de entrada y 168 dólares por millón de salida. Las suscripciones de ChatGPT no modifican su precio, lo que desplaza la carga del ajuste al uso a través de la API, habitual en empresas con integración directa en sistemas internos.
Pese al lanzamiento de GPT-5.2, OpenAI no planea retirar por ahora las series GPT-5.1, GPT-5 o GPT-4.1 en la API. La compañía afirma que cualquier deprecación se comunicará con suficiente antelación, una señal de continuidad para clientes que aún mantienen pipelines basados en modelos previos. Además, se prevé una versión de GPT-5.2 optimizada para Codex, una pieza que todavía encaja con la demanda sostenida de herramientas orientadas a la programación.
Editor en La Ecuación Digital. Analista y divulgador tecnológico con más de 30 años de experiencia en el estudio del impacto de la tecnología en la empresa y la economía.
