
Crédito: CC0 Public Domain
A medida que los detectores de noticias falsas en línea y los filtros de spam se vuelven más sofisticados, también lo hacen los métodos de los atacantes para engañarlos, incluidos los ataques a través del «disparador universal». En este método basado en el aprendizaje, un atacante usa una frase o un conjunto de palabras para engañar a un número indefinido de entradas. Un ataque exitoso podría significar que aparezcan más noticias falsas en su feed de redes sociales o spam que llegue a su bandeja de entrada de correo electrónico.
Tomando prestada una técnica comúnmente utilizada en ciberseguridad para defenderse de estos ataques universales basados en disparadores, los investigadores del Penn State College of Information Sciences and Technology han desarrollado un marco de aprendizaje automático que puede defenderse de manera proactiva contra los mismos tipos de ataques en aplicaciones de procesamiento de lenguaje natural 99 % del tiempo.
El modelo, llamado DARCY, utiliza un concepto de ciberseguridad conocido como «honeypot» para atrapar y atrapar posibles ataques en aplicaciones de procesamiento de lenguaje natural, como detectores de noticias falsas y filtros de spam. Sirviendo como un señuelo, el honeypot atrae a un atacante atrayéndolo a las palabras y frases que están apuntando en su truco.
«Los atacantes intentan encontrar estas frases de ataque universales, por lo que intentamos que sea muy atractivo para ellos encontrar las frases que ya establecimos», dijo Thai Le, estudiante de doctorado en ciencias y tecnología de la información y autor principal del trabajo de investigación. «Intentamos facilitarles el trabajo de ataque y luego caen en una trampa».
DARCY busca e inyecta múltiples trampillas o cebos en una red neuronal textual, la tecnología que impulsa las aplicaciones de procesamiento del lenguaje natural, para capturar y filtrar el contenido malicioso generado por los ataques de activación universal.
«Hasta donde sabemos, este es el primer trabajo que utiliza el concepto de honeypot del dominio de la ciberseguridad para defender modelos de redes neuronales textuales contra ataques adversarios», dijo Dongwon Lee, profesor de tecnología y ciencias de la información e investigador principal del proyecto.
Le explicó que los métodos de defensa actuales contra ataques adversarios son en gran parte reactivos, lo que significa que los defensores deben observar y aprender las técnicas de los piratas informáticos después de un ataque y luego esperar a que se produzca otro ataque para detectarlos y eliminarlos.
Con DARCY, la novedosa idea de un enfoque de defensa proactivo podría ayudar a detectar y prevenir ataques.
«Lo que la gente solía hacer es entrenar un modelo de aprendizaje automático y luego tratar de defenderlo después de que esté entrenado», dijo Le. «Pero lo que estamos tratando de hacer es defender durante el proceso de formación, por lo que protegemos de forma proactiva a los modelos durante la fase de formación».
Los investigadores probaron DARCY en cuatro conjuntos de datos de clasificación de texto separados y utilizaron el marco para defenderse contra seis escenarios de ataque potenciales diferentes, como si un atacante tenía acceso a la red de detección o si estaba al tanto de las trampillas integradas. DARCY superó significativamente a cinco algoritmos de detección de adversarios existentes que sirvieron como líneas de base defensivas.
«Por ejemplo, DARCY pudo detectar los ataques adversarios basados en disparadores universales con una tasa de verdaderos positivos de hasta el 99% y una tasa de falsos positivos de menos del 2% en la mayoría de los casos, lo que es una mejora significativa sobre las líneas de base existentes», dijo Lee.
Al ver la efectividad de usar una táctica de defensa de ciberseguridad exitosa para defender las aplicaciones de procesamiento del lenguaje natural, los investigadores esperan usar las mismas técnicas y marco para prevenir otros tipos de ataques en el futuro.
«Aplicar un concepto de un campo muy diferente es intrigante, porque podemos ver cómo los diferentes campos se conectan entre sí y cómo el paraguas de seguridad puede aplicarse a muchos aspectos diferentes de la informática», concluyó Le.
Engañar a los detectores de noticias falsas con comentarios de usuarios maliciosos
Thai Le et al, A Sweet Rabbit Hole de DARCY: uso de Honeypots para detectar ataques adversarios de Universal Trigger, arXiv: 2011.10492v3 [cs.CR] arxiv.org/abs/2011.10492
Citación: La técnica de seguridad de Honeypot también puede detener los ataques en el procesamiento del lenguaje natural (2021, 29 de julio) recuperado el 29 de julio de 2021 de https://techxplore.com/news/2021-07-honeypot-technique-natural-language.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.