Imagina que eres el nuevo administrador de un gran edificio de apartamentos y alguien te ha robado una de tus llaves, pero no estás seguro de cuál. ¿Fue a un apartamento del primer piso? ¿La sala de correo? Tal vez sea una llave maestra para todas las unidades.
Todos los candados son vulnerables, hasta donde usted sabe, y deberá cambiar cada candado para que sea completamente seguro.
Pero si supiera exactamente qué llave se perdió, podría enfocar sus esfuerzos, cambiando solo el candado relevante y eliminando la amenaza rápidamente.
Multiplique ese problema miles de veces y comprenderá a qué se enfrentan los ciberdefensores. Hay más de 213.800 «claves» conocidas disponibles (puntos de entrada no oficiales a los sistemas informáticos, más conocidos como vulnerabilidades o errores) y ya están en manos de delincuentes. Es probable que haya muchos más que no se conocen. ¿Cómo se pueden rastrear, priorizar y prevenir todas las amenazas y ataques?
Eso es imposible para cualquier persona o equipo. Si bien los analistas informáticos comparten pistas al introducir información en múltiples bases de datos, no tienen un mapa de cómo los adversarios podrían usar la mayoría de esos errores para causar estragos.
Ahora, un equipo de científicos del Laboratorio Nacional del Noroeste del Pacífico del Departamento de Energía, la Universidad Purdue, la Universidad Carnegie Mellon y la Universidad Estatal de Boise han recurrido a la inteligencia artificial para ayudar a resolver el problema. Los investigadores han unido tres grandes bases de datos de información sobre vulnerabilidades informáticas, debilidades y posibles patrones de ataque. Su trabajo fue publicado como parte de la Simposio internacional IEEE 2022 sobre tecnologías para la seguridad nacional (HST).
El modelo basado en IA vincula automáticamente las vulnerabilidades con líneas de ataque específicas que los adversarios podrían usar para comprometer los sistemas informáticos. El trabajo debería ayudar a los defensores a detectar y prevenir ataques con mayor frecuencia y rapidez. El trabajo es de código abierto con una porción ahora disponible en GitHub. El equipo lanzará el resto del código pronto.
«Los ciberdefensores están inundados de información y líneas de código. Lo que necesitan es interpretación y apoyo para la priorización. ¿Dónde somos vulnerables? ¿Qué acciones podemos tomar?» dijo Mahantesh Halappanavar, científico informático en jefe de PNNL que dirigió el esfuerzo general.
«Si eres un ciberdefensor, es posible que estés lidiando con cientos de vulnerabilidades al día. Necesitas saber cómo se pueden explotar y qué debes hacer para mitigar esas amenazas. Esa es la pieza crucial que falta», agregó Halappanavar. «Quieres saber las implicaciones de un error, cómo podría explotarse y cómo detener esa amenaza».
De CVE a CWE a CAPEC: Un camino hacia una mejor ciberseguridad
El nuevo modelo de IA utiliza procesamiento de lenguaje natural y aprendizaje supervisado para unir información en tres bases de datos de ciberseguridad separadas:
- Vulnerabilidades: la pieza específica de código informático que podría servir como apertura para un ataque. Estas más de 200 000 «vulnerabilidades y exposiciones comunes» o CVE se enumeran en un Base de datos de vulnerabilidad nacional mantenido por el Laboratorio de Tecnología de la Información.
- Debilidades: un conjunto más reducido de definiciones que clasifican las vulnerabilidades en categorías basadas en lo que podría suceder si se actuara sobre las vulnerabilidades. Hay alrededor de 1,000 «enumeraciones de debilidades comunes» o CWE enumeradas en el Base de datos de enumeración de puntos débiles comunes mantenido por MITRE Corp.
- Ataques: cómo sería un ataque real que explota vulnerabilidades y debilidades. Más de 500 posibles rutas de ataque o «vectores», conocidos como «CAPEC», están incluidos en el Recurso de enumeración y clasificación de patrones de ataques comunes mantenido por MITRE.
Si bien las tres bases de datos tienen información crucial para los defensores cibernéticos, ha habido pocos intentos de unir las tres para que un usuario pueda detectar y comprender rápidamente las posibles amenazas y sus orígenes, y luego debilitar o prevenir estas amenazas y ataques.
«Si podemos clasificar las vulnerabilidades en categorías generales y sabemos exactamente cómo podría proceder un ataque, podríamos neutralizar las amenazas de manera mucho más eficiente», dijo Halappanavar. «Cuanto más alto vaya en la clasificación de los errores, más amenazas podrá detener con una sola acción. Un objetivo ideal es evitar todas las posibles explotaciones».
El trabajo recibió el premio al mejor artículo en el Simposio Internacional IEEE sobre Tecnologías para la Seguridad Nacional en noviembre.
En trabajos anteriores, el equipo usó IA para vincular dos de los recursos, vulnerabilidades y debilidades. Ese trabajo, dando como resultado el modelo V2W-BERTle valió al equipo (Das, Pothen, Halappanavar, Serra y Ehab Al-Shaer de la Universidad Carnegie Mellon) un premio al mejor artículo de aplicación en la Conferencia internacional IEEE 2021 sobre ciencia de datos y análisis avanzado.
AI vincula errores informáticos a posibles ciberataques automáticamente
El nuevo modelo, VWC-MAP, amplía el proyecto a una tercera categoría, las acciones de ataque.
«Hay miles y miles de errores o vulnerabilidades, y todos los días se crean y descubren nuevos», dijo Das, estudiante de doctorado en Purdue que ha liderado el desarrollo del trabajo desde su pasantía en PNNL en 2019. «Y más están llegando Necesitamos desarrollar formas de adelantarnos a estas vulnerabilidades, no solo las que se conocen sino también las que aún no se han descubierto «.
El modelo del equipo vincula automáticamente las vulnerabilidades con las debilidades adecuadas con una precisión de hasta el 87 % y vincula las debilidades con los patrones de ataque adecuados con una precisión de hasta el 80 %. Esos números son mucho mejores que los que proporcionan las herramientas actuales, pero los científicos advierten que sus nuevos métodos deben probarse más ampliamente.
Un obstáculo es la escasez de datos etiquetados para el entrenamiento. Por ejemplo, actualmente muy pocas vulnerabilidades (menos del 1 %) están vinculadas a ataques específicos. Eso no es una gran cantidad de datos disponibles para el entrenamiento.
Para superar la falta de datos y realizar el trabajo, el equipo ajustó los modelos de lenguaje natural previamente entrenados, utilizando un codificador automático (BERT) y un modelo de secuencia a secuencia (T5). El primer enfoque utilizó un modelo de lenguaje para asociar CVE a CWE y luego CWE a CAPEC a través de un enfoque de predicción de enlace binario. El segundo enfoque utilizó técnicas de secuencia a secuencia para traducir CWE a CAPEC con indicaciones intuitivas para clasificar las asociaciones. Los enfoques generaron resultados muy similares, que luego fueron validados por el experto en ciberseguridad del equipo.
«Estamos poniendo esto para que otros lo prueben, para revisar las vulnerabilidades y asegurarnos de que el modelo las clasifique adecuadamente», dijo Halappanavar. «Realmente esperamos que los expertos en ciberseguridad puedan poner a prueba esta plataforma de código abierto».
Más información:
Siddhartha Shankar Das et al, Hacia el mapeo automático de vulnerabilidades para patrones de ataque utilizando modelos de lenguaje grandes, Simposio internacional IEEE 2022 sobre tecnologías para la seguridad nacional (HST) (2023). DOI: 10.1109/HST56032.2022.10025459
Citación: El nuevo modelo de IA tiene como objetivo tapar la brecha clave en la preparación para la seguridad cibernética (22 de mayo de 2023) recuperado el 22 de mayo de 2023 de https://techxplore.com/news/2023-05-ai-aims-key-gap-cybersecurity.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.