Dos tipos de personas prosperan en los lejanos rincones ocultos de la Dark Web. Un tipo consiste en los buenos: denunciantes, luchadores por la libertad, periodistas, la comunidad de inteligencia y las agencias de aplicación de la ley, todos generalmente librando una buena batalla contra el poder, la codicia y la tiranía.
El otro tipo lo componen los malos: delincuentes, bandas de narcotraficantes, extorsionadores, traficantes de armas, terroristas.
La Dark Web es un centro comercial activo donde los delincuentes ofrecen una larga lista de servicios digitales criminales que brindan contraseñas para cuentas bancarias, números de Seguro Social y otros datos privados para el robo de identidad, malware y paquetes de ataques cibernéticos que pueden acabar con una empresa, un pueblo o un país. .
«Hay un caos que se agrava y se deshace que está en movimiento perpetuo en el vientre tóxico de la Dark Web», dijo una vez James Scott, miembro principal del Instituto de Tecnología de Infraestructura Crítica.
Los investigadores de una universidad nacional de investigación en Corea del Sur están tratando de arrojar un poco más de luz sobre ese punto débil tóxico. Su informe, «DarkBERT: un modelo de lenguaje para el lado oscuro de Internet», apareció esta semana en la arXiv servidor de preimpresión.
Si bien la Dark Web comprende apenas el 5% de todo Internet, atrae a aproximadamente 3 millones de usuarios diariamente. Cybersecurity Ventures predice que las ganancias del cibercrimen mundial superarán los 10 billones de dólares para 2025.
Para ayudar a combatir esa amenaza, los investigadores del Instituto Avanzado de Ciencia y Tecnología de Corea han entrenado previamente un modelo de lenguaje grande en documentos obtenidos de la Dark Web. Dijeron que tal esfuerzo era necesario para brindar una mayor eficiencia a los esfuerzos para navegar en la Dark Web y ayudar a aquellos que buscan detener la actividad delictiva.
El investigador Youngjin Jin dijo que el modelo de lenguaje de su equipo, llamado DarkBERT, «combatirá la extrema diversidad léxica y estructural de la Dark Web que puede ser perjudicial para construir una representación adecuada del dominio».
Jin dijo que los modelos de lenguaje pre-entrenados, como los proyectos BERT y RoBERTa anteriores basados en contenido de Surface Web (a diferencia del contenido de Dark Web), «no son ideales para… extraer información útil, debido a las diferencias en el lenguaje utilizado en el dos dominios».
«Los resultados de nuestra evaluación muestran que el modelo de clasificación basado en DarkBERT supera al de los modelos de lenguaje previamente entrenados conocidos», dijo Jin.
Los investigadores observaron tres áreas clave en las que DarkBERT demostró ser eficaz: detección de fugas de ransomware, detección de hilos notables en los que se detectaron hilos potencialmente maliciosos e inferencia de palabras clave de amenazas definidas como «un conjunto de palabras clave que están semánticamente relacionadas con amenazas y ventas de drogas en la oscuridad». Web.»
Jin señaló que la revisión manual de las voluminosas cantidades de publicaciones en la Dark Web requeriría «recursos humanos masivos». La automatización de dicho análisis «reduciría significativamente la carga de trabajo de los expertos en seguridad», especialmente con un modelo de lenguaje entrenado en el vocabulario único de Dark Web, dijo Jin.
La aplicación de la ley ha logrado algunos avances en el aplastamiento de la actividad ilegal en la Dark Web. El primer mercado moderno de la Dark Web, Silk Road, que generó más de mil millones de dólares en ventas ilegales de drogas, fue cerrado por el FBI y su creador fue sentenciado a cadena perpetua. AlphaBay, que vendió cientos de millones de dólares en drogas y pirateó datos, fue cerrado por un esfuerzo policial multinacional.
Pero esos esfuerzos fueron una gota en el océano. Para lograr un mayor éxito, las fuerzas del orden deben aprender mejor el idioma de los ciberdelincuentes.
DarkBERT parece ser un buen paso en esa dirección.
Más información:
Youngjin Jin et al, DarkBERT: un modelo de lenguaje para el lado oscuro de Internet, arXiv (2023). DOI: 10.48550/arxiv.2305.08596
© 2023 Ciencia X Red
Citación: DarkBERT aprende el lenguaje de la Dark Web (23 de mayo de 2023) recuperado el 23 de mayo de 2023 de https://techxplore.com/news/2023-05-darkbert-language-dark-web.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.