Estás leyendo
Ciberdelincuentes integran LLMs en herramientas de ataque y los usan como vector

Ciberdelincuentes integran LLMs en herramientas de ataque y los usan como vector

  • Cisco Talos documenta cómo los ciberdelincuentes utilizan y manipulan LLMs, conectándolos a herramientas de ataque y explotando modelos legítimos y sin restricciones.
LLMs maliciosos - Inteligencia artificial - Ciberseguridad

Los modelos grandes de lenguaje (LLMs, por sus siglas en inglés) están siendo explotados con creciente intensidad por grupos cibercriminales, no sólo como asistentes para automatizar ataques, sino también como infraestructura vulnerable a ser comprometida. Cisco Talos, la unidad de inteligencia de amenazas de Cisco, ha documentado un amplio abanico de prácticas que abarcan desde el uso de modelos sin restricciones hasta la creación de LLMs maliciosos completamente personalizados.

Estas tácticas permiten a los atacantes redactar correos fraudulentos convincentes, generar malware y scripts a medida, escanear infraestructuras digitales en busca de vulnerabilidades y evadir los controles de seguridad habituales. Además, se observa una tendencia emergente: los LLMs ya no son únicamente una herramienta en manos del cibercrimen, sino también un objetivo directo para introducir código malicioso o manipular sus sistemas de generación de respuestas.

Según datos de Hugging Face, plataforma que alberga más de 1,8 millones de modelos, la mayoría de los LLMs públicos incluyen mecanismos de seguridad como barandillas y procesos de alineación. Sin embargo, estas protecciones pueden ser eliminadas mediante ajustes técnicos, lo que amplía el espectro de uso ilícito.

Explotación de LLMs sin restricciones

Talos ha identificado un número significativo de modelos no alineados que operan sin restricciones de seguridad, facilitando la generación de contenido sensible o malicioso. Uno de los entornos que facilita su ejecución local es el marco Ollama, que permite descargar y utilizar versiones modificadas como Llama 2 Uncensored, basada en el modelo de Meta.

Otra herramienta destacada es WhiteRabbitNeo, promocionada como solución para equipos de seguridad ofensiva y defensiva, pero que también genera correos de phishing y herramientas ofensivas sin limitación. Su popularidad ha crecido entre actores maliciosos gracias a su facilidad de uso y ausencia de salvaguardas.

La disponibilidad de estas herramientas, sumada a los métodos documentados para eliminar las protecciones de modelos base —modificando los datos de entrenamiento y realizando ajustes específicos—, ha ampliado el alcance de su uso no autorizado.

LLMs desarrollados con fines delictivos

El ecosistema delictivo en la dark web ha dado lugar a modelos creados específicamente para la ciberdelincuencia. Herramientas como GhostGPT, WormGPT, DarkGPT, DarkestGPT y FraudGPT ofrecen funcionalidades destinadas a crear código dañino, lanzar ataques dirigidos o automatizar estafas.

En el caso de FraudGPT, Cisco Talos identificó su oferta en foros clandestinos y redes como Telegram, donde se anunciaban capacidades como generación de malware indetectable, validación de tarjetas de crédito robadas, alojamiento de páginas falsas, herramientas de evasión de antifraude y acceso a bases de datos de vulnerabilidades. Sin embargo, tras intentar adquirir acceso a la herramienta, los analistas descubrieron que su promotor, identificado como CanadianKingpin12, estaba estafando a otros ciberdelincuentes mediante falsas licencias de acceso, evidenciando que incluso en estos entornos existe una economía fraudulenta interna.

Abuso y manipulación de modelos legítimos

Ante las limitaciones técnicas y el riesgo de fraude en el uso de LLMs maliciosos, muchos ciberatacantes optan por manipular modelos legítimos mediante técnicas de jailbreak. Estas estrategias buscan forzar a los modelos a ignorar sus restricciones éticas y de seguridad.

Algunas de las técnicas documentadas incluyen:

  • Obfuscación textual: empleando codificaciones como Base64, ROT-13 o leetspeak para disfrazar las solicitudes maliciosas.
  • Sufijos adversarios: adición de cadenas aleatorias a los prompts para alterar la salida.
  • Adopción de roles: induciendo al modelo a asumir personajes ficticios que no siguen normas de seguridad (ej. “DAN” o “Grandma” jailbreak).
  • Manipulación del contexto: incluyendo supuestas respuestas previas del modelo para engañar su estado conversacional.
  • Enfoques académicos o matemáticos: reformulando peticiones ilegales como problemas de teoría de conjuntos o discusiones académicas.
  • Segmentación de payloads: dividir la solicitud maliciosa en partes inocuas que, al combinarse, generan la respuesta buscada.

Estas técnicas conforman un repertorio que evoluciona constantemente en un escenario de escalada entre atacantes y desarrolladores de IA, que ajustan sus modelos en función de las amenazas emergentes.

Conexión con herramientas de ciberataque

Una de las prácticas más recientes identificadas por Cisco Talos es la integración directa de LLMs con utilidades tradicionales de análisis, como Nmap. En foros como Dread, ciberdelincuentes discuten cómo automatizar la interpretación de resultados de escaneos de red mediante IA, mejorando así la velocidad y precisión de sus operaciones.

Esta combinación de LLMs con herramientas ya existentes permite a los atacantes crear entornos más autónomos y eficaces, con menor necesidad de intervención humana directa.

Te puede interesar
Ana Alonso, vicepresidenta sénior para el Suroeste de Europa del negocio de Sector Público de Salesforce

Los LLMs como nueva superficie de ataque

Además de ser utilizados con fines ilícitos, los LLMs también están siendo comprometidos. Investigadores han documentado la existencia de modelos maliciosos distribuidos a través de plataformas públicas como Hugging Face, donde algunos archivos contienen backdoors aprovechando la vulnerabilidad del sistema de serialización pickle en Python.

Aunque se emplean herramientas como Picklescan para detectar código malicioso, ya se han encontrado casos en los que estos controles han sido superados. Ejecutar modelos descargados sin verificación previa puede dar lugar a infecciones de sistemas corporativos.

Asimismo, los modelos que emplean técnicas de Retrieval-Augmented Generation (RAG), es decir, aquellos que consultan bases de datos externas para generar respuestas actualizadas, también presentan riesgos. Si el atacante compromete la fuente de información, puede manipular las respuestas del modelo o inyectar instrucciones ocultas, dirigiéndose incluso a usuarios específicos.

Implicaciones y medidas de contención

El uso indebido de LLMs no representa necesariamente una innovación en las herramientas delictivas, pero sí un multiplicador de capacidad. Cisco Talos alerta de que estas tecnologías están optimizando operaciones ya conocidas, reduciendo los costes operativos del cibercrimen y ampliando su escala.

Ante este panorama, las organizaciones deben adoptar medidas específicas. Según Ángel Ortiz, Director de Ciberseguridad en Cisco España, resulta esencial monitorizar el tráfico relacionado con IA, capacitar a los empleados para identificar contenidos generados artificialmente y utilizar únicamente modelos y plataformas verificadas.

Además, se recomienda implementar políticas internas de uso seguro de IA, auditar el origen de los modelos utilizados y establecer entornos de pruebas controlados para mitigar riesgos derivados de archivos manipulados o conexiones inseguras.

Utilizamos cookies para facilitar la relación de los visitantes con nuestro contenido y para permitir elaborar estadísticas sobre las visitantes que recibimos. No se utilizan cookies con fines publicitarios ni se almacena información de tipo personal. Puede gestionar las cookies desde aquí.   
Privacidad