Por primera vez, el investigador del CISPA Aleksei Stafeev presenta un estudiar que sistematiza el conocimiento sobre herramientas para el análisis automatizado de sitios web, los denominados rastreadores web, en el ámbito de la medición de la seguridad web.
Examinó cientos de artículos publicados en las conferencias internacionales más importantes durante los últimos 12 años. Los resultados mostraron que muchos artículos describen a los rastreadores de manera inadecuada y que los algoritmos aleatorios funcionan mejor cuando los rastreadores navegan por los sitios web. El artículo fue escrito como parte del proyecto TESTABLE por el Dr. Giancarlo Pellegrino de la Facultad de CISPA.
Los estudios para medir la seguridad web, por ejemplo en relación con la implementación de medidas de protección de datos o la seguridad de los sitios web, son muy populares en el campo de la investigación de seguridad. Los rastreadores son la herramienta elegida para su implementación.
«Los rastreadores tienen como objetivo automatizar la recopilación de datos en un sitio web», explica el investigador del CISPA Aleksei Stafeev. Se basan en un algoritmo que controla cómo el rastreador escanea automáticamente un sitio web, visita varias páginas y recopila datos de ellas.
«Pero el rastreo web no es tan sencillo como parece», continúa Stafeev. «En teoría, estas herramientas simplemente visitan sitios web. Pero en realidad, Internet es muy complejo: hay muchos botones diferentes en cada sitio web y cada uno de ellos puede conducir o no a una página diferente.
«Tienes un crecimiento exponencial de diferentes páginas y tienes que determinar cuáles necesitas visitar realmente para obtener datos relevantes para tu pregunta de investigación».
A pesar de la gran importancia de los rastreadores web, hasta ahora sólo se ha estudiado de forma muy limitada su rendimiento. Stafeev ahora está cerrando esta brecha con su estudio.
El investigador del CISPA adoptó un enfoque de dos pasos. «En primer lugar, realizamos una visión general del trabajo actual sobre mediciones web que utilizan rastreadores», explica Stafeev. El resultado fue un corpus de datos de 407 artículos publicados entre 2010 y 2022.
«Intentamos extraer información sobre qué rastreadores se utilizan y cómo obtener una imagen general de lo que se utiliza en las mediciones web», afirma el investigador de CISPA. Para la segunda parte, Stafeev examinó artículos de los últimos tres años que proponen nuevos rastreadores.
«Evaluamos los rastreadores en términos de los datos que recopilan para medir la seguridad web», continúa Stafeev.
Para examinar los rastreadores en términos de cobertura de código, cobertura de fuentes y colección de JavaScript, Stafeev desarrolló una configuración experimental llamada Arachnarium.
Descripciones insuficientes y la paradoja de la aleatorización
Uno de los hallazgos clave de la primera parte del estudio fue que la mayoría de los artículos tenían descripciones inadecuadas de los rastreadores web.
Stafeev dice: «Fue realmente difícil extraer y comprender la información sobre qué tecnología utilizan para rastrear y qué técnicas utilizan. Y, por lo general, no había suficientes detalles sobre el código y los algoritmos utilizados.
«A menudo era simplemente ‘usamos el rastreo’ y eso era todo. Uno de los aprendizajes clave fue que podemos hacerlo mejor como comunidad proporcionando más información sobre los rastreadores que utilizamos y cómo están configurados».
Esto es particularmente importante para poder garantizar la reproducibilidad de los estudios, que es un criterio clave de calidad científica.
La segunda parte del estudio también arrojó un resultado sorprendente. «Según nuestros datos, los rastreadores web que utilizan algoritmos aleatorios parecen funcionar mejor», explica Stafeev.
«Esto es bastante sorprendente, ya que significa que, independientemente de las estrategias de navegación que hayamos desarrollado, todavía no hemos encontrado una solución mejor que simplemente hacer clic en cosas al azar».
El investigador de CISPA probó los rastreadores con varias métricas. Descubrió que no había ningún ganador entre los rastreadores para las tres métricas.
«Por lo tanto, no podemos dar una recomendación única que diga: ‘Todos deberían usar este rastreador'», continúa el investigador de CISPA. Por lo tanto, depende decisivamente del contexto y del objetivo exacto qué rastreador es adecuado.
Conclusiones y manejo posterior de los datos de la investigación.
Para implementar el estudio, Stafeev creó un enorme conjunto de datos. «Creemos que podemos aprender mucho más de ello», afirma. «Y sería realmente bueno si otros pudieran obtener más información a partir de los datos que hemos recopilado».
Por este motivo, Stafeev ha puesto a disposición en línea el conjunto de datos completo de forma gratuita. En el futuro quiere volver a dedicarse a su verdadera pasión: desarrollar nuevos rastreadores. Inicialmente, Stafeev no había planeado realizar un estudio tan grande. Originalmente solo quería mejorar su propio rastreador y ver cómo otros habían abordado el problema.
«Sistematizar el conocimiento, en el que se basa este estudio, es toda una tarea», afirma. «Pero aprendí mucho de este proyecto sobre cómo llevar a cabo tales experimentos y trabajar con conjuntos de datos tan grandes. Aprovecharé este conocimiento en mi trabajo futuro».
Más información:
Aleksei Stafeev et al, SoK: Estado de los Krawlers: evaluación de la eficacia de los algoritmos de rastreo para mediciones de seguridad web, (2024). DOI: 10.60882/cispa.25381438.v1
Proporcionado por el Centro CISPA Helmholtz para la Seguridad de la Información
Citación: Un estudio revela la necesidad de una mejor documentación de los rastreadores web (2024, 29 de noviembre) obtenido el 29 de noviembre de 2024 de https://techxplore.com/news/2024-11-reveals-documentation-web-crawlers.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.
GIPHY App Key not set. Please check settings