Editor en La Ecuación Digital. Analista y divulgador tecnológico con…
El 7 de agosto, OpenAI presentó GPT-5 como un sistema unificado que combina un modelo rápido para la mayoría de consultas, un modelo de razonamiento más profundo —GPT-5 Thinking— para problemas complejos y un router que decide en tiempo real cuál usar según la tarea y la intención explícita del usuario. En los días posteriores se conoció un dato llamativo: muy pocos usuarios estaban eligiendo deliberadamente los modelos de razonamiento. Según mensajes publicados por Sam Altman en X, antes del lanzamiento solo alrededor del 1% de usuarios gratuitos y el 7% de los de pago usaban a diario modelos de este tipo; tras el cambio de producto, el uso entre los de pago habría subido en torno al 24%.
the percentage of users using reasoning models each day is significantly increasing; for example, for free users we went from <1% to 7%, and for plus users from 7% to 24%.
i expect use of reasoning to greatly increase over time, so rate limit increases are important.
— Sam Altman (@sama) August 10, 2025
El estreno también provocó quejas por la retirada temporal de modelos previos como GPT-4o dentro de ChatGPT. La compañía dio marcha atrás y restableció la posibilidad de elegir versiones “legadas” para suscriptores Plus, a la vez que aumentó límites de uso del modo de razonamiento y añadió más control sobre la selección de velocidad. OpenAI ha reconocido incidencias técnicas en el “router” durante el primer día que degradaron las respuestas percibidas.
GPT-5 y “Thinking”: arquitectura y promesa técnica
OpenAI describe GPT-5 como un único sistema con tres piezas:
- un modelo base optimizado para rapidez,
- un modelo de razonamiento (GPT-5 Thinking) y
- un router que deriva cada consulta.
La empresa asegura que el router también obedece instrucciones del usuario (por ejemplo, si se le pide “piensa a fondo”) y que el modo “Thinking” está diseñado para dedicar más pasos internos a planificar, verificar e iterar antes de responder. Para desarrolladores, OpenAI ha publicado documentación y precios específicos.
Este planteamiento pretende resolver una fricción conocida: la disyuntiva entre latencia y precisión. La novedad no elimina el coste de computación del razonamiento, pero intenta aplicarlo solo cuando aporta valor, y hacerlo visible al usuario. Tras el estreno, OpenAI introdujo en el selector de ChatGPT tres modos: “Auto”, “Fast” y “Thinking”, que permiten forzar el comportamiento sin depender íntegramente del router automático.
Datos de uso: por qué los modelos de razonamiento apenas se tocaban
Más allá del despliegue técnico, la señal relevante para el mercado es el patrón de uso. Altman afirmó que, antes de GPT-5, menos del 1% de los usuarios gratuitos y el 7% de los de pago usaban a diario un modelo de razonamiento (como la serie o3). Tras los cambios de interfaz y límites, ese porcentaje habría subido al 7% y 24%, respectivamente. Las cifras ayudan a explicar el desencuentro entre expectativas de proveedor y experiencia de usuario: una parte sustancial del público prioriza velocidad y familiaridad frente a “Thinking”.
Investigaciones recientes sobre patrones de adopción sugieren que la utilidad percibida de los chatbots varía con el perfil del usuario y el caso de uso. Un análisis reciente de Pew Research indica que el 33% de los estadounidenses que han usado chatbots los considera “muy” o “bastante” útiles, lejos del 61% entre expertos en IA encuestados, y que una quinta parte del público los ve poco útiles. Esos resultados encajan con la adopción selectiva del modo de razonamiento: los usuarios no necesariamente optan por más lentitud y coste si no perciben una ganancia clara.
GPT-4o, retirada y retorno: lo que revela el apego al “tono” del modelo
La decisión inicial de retirar GPT-4o del selector de ChatGPT supuso un rechazo visible en redes y foros. En menos de 48 horas, OpenAI restauró GPT-4o para clientes de pago y anunció que avisará con antelación en futuras deprecaciones. Publicaciones de directivos de OpenAI apuntan a que la empresa no calibró el grado de apego de ciertos usuarios a rasgos conversacionales específicos de 4o. En paralelo, la compañía prometió ajustes de “personalidad” en GPT-5 para acomodar estas preferencias.
El episodio no es menor para la gestión de producto. En herramientas de uso intensivo, los cambios de modelos por defecto alteran estilos de respuesta, consistencia y flujos de trabajo. Este caso destaca una tensión conocida entre mejora técnica y continuidad operativa: la sustitución silenciosa de un modelo puede ahorrar complejidad en la interfaz, pero encarece la adopción si rompe expectativas.
Límites de uso y costes: ajustes tras el lanzamiento
Otro vector de fricción fue el ratio de límites (“rate limits”) aplicado a GPT-5 Thinking. Tras las críticas iniciales, OpenAI comunicó aumentos sustanciales de capacidad para suscriptores Plus y, días más tarde, fijó públicamente umbrales de hasta 3.000 mensajes/semana en el modo de razonamiento, junto con controles “Auto/Fast/Thinking”. La compañía ha hablado de “trade-offs” de capacidad mientras ajusta su infraestructura. Para los equipos que evalúan productividad y coste por ticket, estos números condicionan la planificación.
El propio Altman reconoció incidencias en el router que hicieron que GPT-5 pareciera más torpe durante parte del día de lanzamiento, y prometió remedios específicos. Estas declaraciones, difundidas en un AMA en Reddit, sugieren que parte de la percepción negativa inicial obedeció a problemas operativos temporales más que a la capacidad intrínseca del modelo.
Implicaciones para empresas en España: calidad, latencia y gobierno del dato
Para empresas y administraciones que integran asistentes en procesos críticos, el aprendizaje central es operativo: diferenciar explícitamente entre consultas que exigen razonamiento (con mayor coste/latencia) y tareas rutinarias donde basta el modelo rápido. El patrón observado —baja activación voluntaria del modo “Thinking” salvo en usuarios avanzados— apunta a que la configuración por defecto y la interfaz influyen más que la “formación” del usuario a la hora de aprovechar modelos de mayor deliberación.
Los equipos de TI suelen evaluar tres ejes
Control de modo por caso de uso
Establecer políticas que fuercen “Thinking” en flujos sensibles (cálculos, decisiones normativas, redacción jurídica o financiera), y “Fast” en interacción básica o recuperación de información. La llegada de “Auto/Fast/Thinking” permite plasmar ese mapeo de forma más granular en el front-end de ChatGPT.
Capacidad y costes
Los nuevos límites públicos del razonamiento facilitan estimar demanda pico y consumo mensual. En entornos con cientos de asientos, 3.000 mensajes/semana por usuario para “Thinking” puede ser suficiente si el enrutado al modo profundo se limita a tareas de alto impacto. Donde no lo sea, habrá que prever colas, ventanas temporales o uso de API para distribuir carga.
Trazabilidad y cambios de modelo
El incidente con GPT-4o ilustra la necesidad de versionar prompts, plantillas y verificaciones, y de exigir ventanas de preaviso en deprecaciones. Diversos medios señalan que OpenAI se ha comprometido a no retirar modelos del producto sin aviso previo, y a ofrecer mayores opciones de configuración. Esto reduce el riesgo de roturas de flujo en producción.
Experiencia de usuario y comunicación del modelo seleccionado
La baja adopción histórica de razonamiento sugiere que muchos usuarios no sabían cuándo estaban activando un modelo “profundo”. Un problema es de nomenclatura e indicación: si el sistema no muestra de forma inequívoca qué variante responde, el usuario no puede correlacionar latencia, calidad y coste. Los cambios anunciados —selector visible y mensajes públicos sobre límites— van en la línea de mayor transparencia, aunque la prensa especializada apunta que el selector vuelve a ser complejo y que el router aún requiere iteración.
Para España, donde la adopción corporativa de IA generativa se concentra en banca, seguros, energía, retail y sector público, este matiz es operativo: la gestión de expectativas del usuario interno y la explicabilidad del “modo” empleado importan tanto como la métrica de exactitud. La comunicación clara del estado (Auto/Fast/Thinking) en la interfaz y en los registros de auditoría contribuiría a reducir tickets de soporte y reprocesos.
Señales para el mercado: de la reacción a la estabilización
A medida que OpenAI corrige el router y ajusta el producto, siguen llegando mensajes que apuntan a estabilización: incremento de límites, retorno de 4o para Plus, ajustes de personalidad del asistente y compromiso de avisos en deprecaciones. Directivos de OpenAI han reconocido públicamente aprendizajes en esta transición y han señalado objetivos de crecimiento y nuevos productos; en paralelo, entrevistas y coberturas recogen cifras de uso semanal masivo y el interés por modular “temperamento” y comportamiento del modelo según preferencias del usuario.
Para los decisores tecnológicos, el punto de fondo es que la calidad en tareas complejas depende de activar deliberación (o comunicarla bien cuando el router la invoca) y de presupuestar su coste en tiempo y computación. El lanzamiento de GPT-5 pone números y evidencia pública a una intuición compartida en muchos equipos: sin diseño de interfaz y políticas, la organización tenderá a usar el “primer y segundo cambio” del coche y a desaprovechar el resto de la caja.
Qué vigilar a corto plazo
En el corto plazo, conviene seguir tres frentes:
- la evolución de los indicadores de alucinación y rendimiento publicados por OpenAI y terceros,
- la estabilidad del router y su capacidad para seleccionar correctamente “Thinking” sin que el usuario lo fuerce y
- el esquema de precios y límites, que condiciona la viabilidad de trasladar “Thinking” a más flujos. La cobertura especializada ha documentado mejoras de seguridad y reducción de errores frente a modelos previos, junto con resultados mixtos en bancadas de “agencia” (tareas compuestas online). Esta mezcla sugiere progreso, pero también trabajo pendiente de integración.
Lectura para equipos en España
Para el ecosistema español —con despliegues crecientes en castellano y cooficiales— el caso GPT-5 aporta lecciones pragmáticas: diseñar experiencias que expliciten el modo, medir el retorno de activar razonamiento en tareas de negocio y pactar con el proveedor ventanas de cambio y mecanismos de reversión de modelo. La combinación de controles “Auto/Fast/Thinking”, mayor transparencia sobre límites y la vuelta de modelos legados reduce incertidumbre operativa, siempre que se acompañe de gobernanza y de métricas de calidad alineadas con cada caso de uso.
Editor en La Ecuación Digital. Analista y divulgador tecnológico con más de 30 años de experiencia en el estudio del impacto de la tecnología en la empresa y la economía.
