Estás leyendo
Inyección indirecta de prompts: cómo las personas manipulan las redes neuronales

Inyección indirecta de prompts: cómo las personas manipulan las redes neuronales

  • Un estudio de Kaspersky destaca un aumento en la inyección indirecta de prompts, una técnica para manipular modelos de lenguaje como ChatGPT. Aunque no se han reportado daños graves, persiste el riesgo de mal uso.
Inteligencia Artificial - LLMs

Los son herramientas poderosas que se utilizan en diversas aplicaciones, desde el análisis de documentos hasta la contratación de personal e incluso la investigación de amenazas.

Sin embargo, los analistas de han descubierto una vulnerabilidad que permite a los insertar instrucciones ocultas en páginas web y documentos online, las cuales pueden ser recogidas por sistemas basados en LLM, influyendo potencialmente en los resultados de búsqueda o en las respuestas de .

El estudio identificó varios usos para la  inyección indirecta de  :

  1. Inyecciones relacionadas con recursos humanos. Los solicitantes de empleo están insertando prompts en sus currículos para manipular los algoritmos de contratación y garantizar resultados favorables o priorización por parte de los sistemas de IA. Se utilizan técnicas como el uso de fuentes pequeñas o la adaptación del color del texto al fondo.
  2. Inyecciones publicitarias. Los anunciantes están colocando inyecciones de prompts en las páginas de destino para influir en los chatbots de búsqueda y hacer que generen reseñas positivas de productos.
  3. Inyección como protesta. Personas que se oponen al uso generalizado de LLMs están insertando prompts de protesta en sus webs personales y perfiles de redes sociales, expresando su desacuerdo a través de instrucciones humorísticas, serias o agresivas.
  4. Inyección como insulto. En las redes sociales, los usuarios están utilizando la inyección de prompts como una forma de insulto o para frenar bots de spam, a menudo con solicitudes para generar poemas, arte ASCII u opiniones sobre temas políticos.

Aunque el estudio no ha encontrado pruebas de uso malicioso con fines lucrativos, pone de relieve posibles riesgos futuros. Por ejemplo, los atacantes podrían manipular LLMs para difundir desinformación o extraer datos sensibles. “La inyección indirecta de prompts es una vulnerabilidad novedosa que destaca la necesidad de medidas de seguridad robustas en la era de la IA. Al entender estos riesgos e implementar salvaguardias apropiadas, podemos asegurar que los LLM se utilicen de manera segura y responsable”, comenta Vladislav Tushkanov, gerente del Grupo de Desarrollo de Investigación en el Equipo de Investigación de Tecnología de Aprendizaje Automático de Kaspersky.

Te puede interesar
Europa

Para proteger tus sistemas actuales y futuros basados en modelos de lenguaje grande (LLM), considera los siguientes consejos:

  • Comprende las posibles vulnerabilidades en tus sistemas basados en LLM y evalúa los riesgos asociados con los ataques de inyección de prompts.
  • Ten en cuenta los riesgos reputacionales, ya que los bots de marketing pueden ser manipulados para hacer declaraciones radicales, lo que podría dañar tu reputación.
  • Respeta los límites de la protección. La protección completa contra la inyección de prompts no es posible, especialmente con ataques más complejos como las inyecciones multimodales.
  • Utiliza herramientas de moderación de entradas y salidas para filtrar las de los LLM, aunque puede que no ofrezcan una seguridad total.
  • Reconoce los riesgos que surgen al procesar contenido no fiable o no verificado en sistemas LLM.
  • Restringe las capacidades de toma de decisiones de los sistemas de IA para prevenir acciones no intencionadas.
  • Asegúrate de que todos los ordenadores y servidores que ejecuten sistemas basados en LLM estén protegidos con herramientas y prácticas de seguridad actualizadas.
Utilizamos cookies para facilitar la relación de los visitantes con nuestro contenido y para permitir elaborar estadísticas sobre las visitantes que recibimos. No se utilizan cookies con fines publicitarios ni se almacena información de tipo personal. Puede gestionar las cookies desde aquí.   
Privacidad