ChatGPT lanza un agente autónomo para ejecutar tareas complejas en la web y ejecución en la nube

El agente de ChatGPT puede realizar tareas complejas de principio a fin, navegando en la web, ejecutando acciones y creando entregables de forma autónoma.

Editor en La Ecuación Digital. Analista y divulgador tecnológico con…

OpenAI ha lanzado un nuevo sistema dentro de ChatGPT que actúa como agente autónomo, con la capacidad de ejecutar tareas de principio a fin utilizando su propio entorno virtual. Esta funcionalidad permite que el modelo acceda a páginas web, complete formularios, analice datos, genere entregables e interactúe con sistemas externos, todo ello sin intervención directa del usuario en cada paso, aunque bajo su supervisión continua.

La herramienta, que integra las capacidades previas de Operator y la investigación profunda, ya está disponible para los usuarios Pro, Plus y Team en el Reino Unido, y está previsto su despliegue en España a lo largo del mes de julio.

Un agente que ejecuta, analiza y decide

A diferencia de versiones anteriores, el nuevo agente de ChatGPT no se limita a responder preguntas o generar texto. Ahora es capaz de:

Navegar de forma autónoma por sitios web mediante un navegador visual interno.
Acceder a APIs para recuperar datos estructurados, como precios o indicadores financieros.
Manipular contenido en tiempo real, incluidos formularios protegidos con contraseña y sitios con carga dinámica (JavaScript).
Ejecutar código, editar hojas de cálculo y generar documentos.
Seleccionar herramientas automáticamente según el tipo de tarea, alternando entre razonamiento y acción.

Estas capacidades se ejecutan desde una máquina virtual temporal gestionada por OpenAI, que se inicia al comenzar una tarea y se destruye tras su finalización. El entorno soporta navegación gráfica, terminal de comandos, LibreOffice y acceso controlado a conectores del usuario, lo que permite trabajar directamente con datos empresariales.

Casos de uso en entornos reales

El agente ha sido probado en tareas de negocio, marketing y producto. Un ejemplo citado por la publicación Every muestra cómo se analizaron más de 1.300 correos de soporte y mensajes en foros para:

Identificar quejas frecuentes.
Detectar usuarios satisfechos.
Buscar a estos usuarios en LinkedIn.
Sintetizar perfiles de cliente mediante arquetipos.

En aproximadamente 15 minutos, el sistema generó un informe de 2.000 palabras y un conjunto de representaciones de cliente útil para decisiones de producto y posicionamiento.

Otros ejemplos de aplicación mencionados incluyen:

Auditorías de experiencia de usuario (UX): Análisis de webs, flujos de usuario y puntos de fricción con documentación estructurada.
Análisis financiero y presentación ejecutiva: Revisión de hojas de cálculo de resultados y generación automática de presentaciones en PowerPoint.
Briefings diarios: Resumen de noticias, foros y papers sobre IA o sectores específicos, organizado por temática.
Planificación personal y profesional: Búsqueda de hoteles, planificación de viajes, listas de la compra y coordinación de eventos.

Estos casos muestran cómo el agente puede asumir tareas previamente fragmentadas entre múltiples herramientas y procesos.

Evaluaciones comparativas: rendimiento frente a humanos y modelos previos

OpenAI ha sometido el agente a varias pruebas estándar del sector para medir su rendimiento:

SpreadsheetBench

Diseñada para evaluar capacidades de edición de hojas de cálculo en entornos reales, esta prueba muestra:

Modelo	Global (%)	Entorno
Humano	71,33	Excel, Windows
ChatGPT Agent (.xlsx)	45,54	LibreOffice, OSX
GPT‑4o	18,35	Excel, Windows
Copilot en Excel	20,00	Excel, Windows
OpenAI o3	23,25	LibreOffice, OSX

DSBench

Conjunto de tareas de ciencia de datos que incluyen análisis, modelado y visualización. El agente de ChatGPT superó tanto al modelo anterior como a analistas humanos, estableciendo un nuevo punto de referencia.

WebArena y BrowseComp

Pruebas de navegación web en escenarios con carga dinámica y autenticación. El modelo alcanzó una puntuación de 68,9 en BrowseComp, superior a la obtenida por la herramienta de investigación profunda.

Te puede interesar

Servicios financieros embebidos e IA impulsan la digitalización bancaria en 2025

La IA en la banca entra en la fase de rentabilidad

Humanity’s Last Exam

Evaluación multitemática con preguntas de nivel experto. El modelo alcanzó una puntuación de 43,1, estableciendo un nuevo máximo para sistemas de IA generalistas.

Seguridad, control y privacidad: arquitectura supervisada

Dado que el agente tiene la capacidad de actuar en el entorno web, OpenAI ha implementado múltiples salvaguardas para mitigar riesgos:

Confirmación explícita antes de ejecutar acciones sensibles: envío de formularios, reservas, compras o interacciones con datos personales.
Supervisión activa: Tareas como enviar correos electrónicos o editar contenidos sensibles requieren la validación del usuario.
Rechazo proactivo de acciones peligrosas o ilegales, como transacciones financieras o asesoramiento legal.
Defensa frente a ataques adversos, incluida la detección de instrucciones maliciosas embebidas en contenidos web.
Control de sesión y privacidad: Los datos no se almacenan, las cookies se gestionan por cada sitio, y el usuario puede eliminar el historial con un solo clic.

Estas protecciones están alineadas con el marco de seguridad reforzado anunciado por OpenAI para modelos de propósito general con capacidad autónoma.

Diferencias estratégicas frente a otros agentes

El agente de ChatGPT se distingue en el actual contexto competitivo de agentes autónomos por su enfoque de abstracción del navegador. Mientras que competidores como Perplexity Comet o The Browser Company con Dia integran IA dentro del navegador del usuario, OpenAI opta por ejecutar las tareas desde un navegador remoto sin intervención directa. Esto convierte al agente en un intermediario autónomo entre el usuario y la web.

Este enfoque plantea una posible consolidación del acceso a internet a través de modelos de lenguaje, lo que podría alterar la lógica actual de navegación, publicidad y acceso a contenidos digitales.

Etiquetas

chatgpt agent openai

Hernán Rodríguez

Editor en La Ecuación Digital. Analista y divulgador tecnológico con más de 30 años de experiencia en el estudio del impacto de la tecnología en la empresa y la economía.