Rastreadores web exponen información confidencial en IA

Un estudio de IMDEA Networks demuestra que ChatGPT, Claude, Grok y Perplexity comparten datos y enlaces de chats con Google, Meta y TikTok.

Smartphones - cobertura móvil - redes móviles

Editor en La Ecuación Digital. Analista y divulgador tecnológico con…

Las interfaces de inteligencia artificial generativa se han consolidado en el entorno corporativo como herramientas de soporte diario, consultoría interna y procesamiento de datos confidenciales. La aparente sobriedad de sus ventanas de chat, desprovistas de los banners publicitarios tradicionales, suele proyectar una sensación de confidencialidad que invita a la inserción de métricas financieras, estrategias de negocio o códigos fuente.

Detrás de esta capa visual opera una infraestructura técnica orientada a la monitorización de la actividad digital. Un análisis detallado de las plataformas OpenAI, Anthropic, Grok y Perplexity AI revela que el ecosistema publicitario convencional ha comenzado a asimilar estos nuevos entornos de interacción.

La arquitectura de estos sistemas no difiere sustancialmente de la red convencional en lo que respecta a la recolección de metadatos. Una investigación desarrollada por IMDEA Networks Institute desvela la presencia de rastreadores pertenecientes a corporaciones como Meta, Google y TikTok integrados en los flujos de trabajo de los principales asistentes de IA.

La presencia de estos elementos implica que la información vinculada a las sesiones de los usuarios, lejos de quedar confinada en un canal cifrado y cerrado, se expone a los circuitos habituales de la publicidad programática. La asimilación de estas tecnologías por parte de los comités de dirección introduce, por tanto, vectores de riesgo inéditos en la gestión de los activos intangibles de las compañías.

El problema central reside en la transferencia de enlaces permanentes («permalinks») de las conversaciones hacia plataformas analíticas de terceros. Cuando un directivo o un ingeniero genera un historial de consultas, el sistema crea una dirección URL específica para el almacenamiento o la recuperación de dicha sesión. Los rastreadores comerciales interceptan estas direcciones web junto con las cookies de navegación y diversos identificadores del dispositivo.

Esta dinámica compromete la confidencialidad de la información confidencial en IA, transformando un canal teóricamente cerrado en un emisor de trazas digitales aprovechables por empresas externas de marketing.

La debilidad en los controles de acceso a estas direcciones web agrava la situación operativa. Narseo Vallina Rodríguez, profesor de investigación asociado en IMDEA Networks, señala que un control de acceso débil o inexistente significa que un simple enlace a una conversación puede otorgar acceso a su contenido, lo que hace que los chats sean públicos para cualquiera, incluidos los rastreadores, que tenga la URL. El riesgo no se limita a la captación pasiva de metadatos estadísticos, sino que se extiende a la visibilidad potencial del cuerpo del texto intercambiado con el modelo.

La gestión de la información confidencial en IA varía según el proveedor tecnológico analizado. En el caso de Grok y Perplexity, el estudio detecta el envío recurrente de los enlaces permanentes de los chats hacia herramientas de seguimiento como Meta Pixel. El comportamiento detectado en la plataforma Grok incluye la exposición explícita del contenido de los mensajes dentro de los metadatos de Open Graph, elementos que son recopilados por la infraestructura de TikTok durante los procesos habituales de indexación y sincronización de datos de la navegación.

El entramado técnico analizado por el instituto de investigación muestra que los mecanismos de protección actuales resultan insuficientes ante la sofisticación del rastreo publicitario del lado del servidor. Guillermo Suárez-Tangil, coautor de la investigación y profesor en IMDEA Networks, detalla que la combinación de identificadores como cookies utilizadas en servicios de seguimiento, correos electrónicos encriptados mediante algoritmos de hash y técnicas avanzadas del lado del servidor facilita la creación de perfiles persistentes. Este marco técnico permite asociar las interacciones realizadas en el entorno de la inteligencia artificial con las identidades reales de los usuarios en el mundo físico o corporativo.

Las corporaciones se encuentran ante un escenario normativo y ético complejo. Las directivas de privacidad de los proveedores tecnológicos suelen contemplar el uso de cookies analíticas y la compartición de datos con socios comerciales, pero la ambigüedad domina la descripción de los flujos de información. Suárez-Tangil subraya que las políticas nunca indican claramente que las conversaciones reales forman parte de la información que se comparte con terceros. Esta opacidad diluye la eficacia de los sistemas de cumplimiento normativo («compliance») implementados por las empresas españolas para salvaguardar sus secretos industriales.

La desactivación de las cookies no esenciales a través de los paneles de configuración integrados en las páginas web ofrece un alivio parcial, pero no bloquea los procesos automáticos de transmisión de datos ejecutados desde los servidores de las propias plataformas. Aniketh Girish, investigador postdoctoral en IMDEA Networks, afirma que la mayoría de los usuarios no tienen forma de saber que esto está ocurriendo debido a la total ausencia de indicadores visuales en la interfaz de usuario. La capacidad de autogestión de la privacidad por parte de los profesionales queda supeditada a las decisiones arquitectónicas que adopten los desarrolladores de los modelos a nivel de infraestructura básica.

El encaje de estas prácticas con el Reglamento General de Protección de Datos (RGPD) en la Unión Europea introduce una fricción regulatoria significativa. La ausencia de una base legal explícita y legítima para el intercambio de contenidos conversacionales con la industria de la publicidad programática expone a las compañías proveedoras a posibles expedientes sancionadores por parte de las autoridades de control.

Jorge García Herrero, abogado especializado y delegado de protección de datos que ha participado en el análisis legal del estudio, equipara la relevancia de estas transferencias de información con las habituales advertencias sobre las alucinaciones de los modelos de lenguaje. Según el jurista, la posibilidad de que la información corporativa termine integrada en las bases de datos de la industria publicitaria exige un nivel de atención equivalente al que se otorga a la exactitud técnica de las respuestas generadas por los algoritmos.

La dependencia de herramientas que operan bajo un modelo de negocio híbrido, donde coexisten las suscripciones corporativas de pago y la monetización indirecta mediante datos de uso, altera las políticas de seguridad de la información. El almacenamiento prolongado de historiales de conversación en la nube, sumado a una política de accesos que prioriza la agilidad del usuario para compartir enlaces frente a la robustez del cifrado de punto a punto, multiplica los puntos de exposición. Las organizaciones que emplean estos sistemas para depurar patentes, analizar contratos comerciales o diseñar planes estratégicos se enfrentan a una fuga silenciosa de conocimiento que escapa a los firewalls perimetrales convencionales.

Los departamentos de tecnología y seguridad de las compañías en España se ven obligados a evaluar si el rendimiento operativo que ofrecen estas soluciones compensa la dispersión de sus trazas informativas en las redes de publicidad global. La adopción corporativa de la inteligencia artificial entra en una fase donde la auditoría del tráfico saliente y el control estricto de las conexiones mediante servidores intermediarios propios («proxies») se perfilan como requisitos indispensables para mitigar la porosidad inherente a las interfaces comerciales estándar.

Etiquetas

claude grok IMDEA Networks información confidencial en ia openai perplexity privacidad artificial rastreo publicitario rgpd españa seguridad de datos

Hernán Rodríguez

Editor en La Ecuación Digital. Analista y divulgador tecnológico con más de 30 años de experiencia en el estudio del impacto de la tecnología en la empresa y la economía.