Se ha creado el archivo PDF más grande del mundo para ayudar en la investigación de malware

PDF — Crédito: Pixabay/CC0 Dominio público

Como parte del programa SafeDocs de DARPA, los científicos de datos del JPL han acumulado 8 millones de archivos PDF que ahora se pueden usar para realizar más estudios a fin de hacer que Internet sea más seguro.

El Laboratorio de Propulsión a Chorro de la NASA es bien conocido por aterrizar rovers en Marte, explorar el sistema solar con sondas robóticas y desarrollar instrumentos científicos sensibles que observan la Tierra y otros planetas. Pero menos conocido es el trabajo de vanguardia del laboratorio en el mundo digital.

En apoyo de un esfuerzo más amplio para hacer que Internet sea más seguro, los científicos de datos del JPL han creado el archivo (corpus) de archivos PDF de código abierto único disponible públicamente. Abreviatura de formato de documento portátil, un PDF es un tipo de archivo complejo que parece un documento impreso y puede contener imágenes, archivos de películas, formularios interactivos, modelos 3D y mucho más.

El nuevo corpus PDF es parte de un programa de la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) llamado Documentos seguros (SafeDocs) que tiene como objetivo hacer frente a las amenazas en línea y anticipar las necesidades de seguridad de los usuarios de PDF. Al trabajar con la Asociación PDF sin fines de lucro, que busca establecer especificaciones y estándares abiertos para la tecnología, JPL está ayudando a desarrollar varias herramientas para enfrentar estos desafíos.

Al crear el corpus, el equipo no evaluó el tema real de los archivos PDF. Su objetivo era recopilar una gran muestra representativa de archivos PDF que existen en Internet para que los expertos puedan buscar software malicioso que podría estar oculto en el código de los archivos. Ese trabajo se utilizará para ayudar a anticipar las amenazas en línea emergentes y mejorar la tecnología PDF.

«Los archivos PDF se usan en todas partes y son importantes para contratos, documentos legales, diseños de ingeniería en 3D y muchos otros fines. Desafortunadamente, son complejos y pueden verse comprometidos para ocultar códigos maliciosos o presentar información diferente para diferentes usuarios de manera maliciosa», dijo. Tim Allison, científico de datos en JPL en el sur de California. «Para enfrentar estos y otros desafíos de los archivos PDF, se debe recopilar una gran muestra de archivos PDF del mundo real de Internet para crear un recurso compartido y disponible gratuitamente para los expertos en software».

Una proeza digital

Construir el corpus no fue tarea fácil. Como punto de partida, el equipo de Allison utilizó Common Crawl, un repositorio público de código abierto de datos de rastreo web, para identificar una amplia variedad de archivos PDF que se incluirían en el corpus: archivos que están disponibles públicamente y no detrás de firewalls o en redes privadas. . Realizado entre julio y agosto de 2021, el rastreo identificó aproximadamente 8 millones de archivos PDF.

Common Crawl limita los datos descargados a 1 megabyte por archivo, lo que significa que los archivos más grandes estaban incompletos. Pero los investigadores necesitan el PDF completo, no una versión truncada, para realizar una investigación significativa sobre ellos. El límite de tamaño de archivo redujo la cantidad de archivos completos sin truncar extraídos directamente de Common Crawl a 6 millones. Para obtener los otros 2 millones de PDF y asegurarse de que el corpus estuviera completo, el equipo de JPL volvió a buscar los archivos truncados mediante un software especializado que descargó los archivos completos de las direcciones web de los PDF incompletos.

Se extrajeron varios metadatos, como el software utilizado para crear cada PDF, y se incluyen con el corpus. El equipo de JPL también se basó en un software de geolocalización gratuito y disponible públicamente para identificar la ubicación del servidor del sitio web de origen de cada PDF. El conjunto completo de datos tiene un total de aproximadamente 8 terabytes, lo que lo convierte en el corpus más grande disponible públicamente de su tipo.

El corpus hará más que ayudar a los investigadores a identificar amenazas. Los investigadores de privacidad, por ejemplo, podrían estudiar estos archivos para determinar cómo se puede mejorar el software de creación y edición de archivos para proteger mejor la información personal. Los desarrolladores de software podrían usar los archivos para encontrar errores en su código y verificar si las versiones antiguas del software aún son compatibles con las versiones más nuevas de los archivos PDF.

«Esta es ciencia abierta y repetible. Los investigadores necesitan tener un conjunto de datos común con el que trabajar para poder comparar los resultados de diferentes técnicas de análisis y experimentos», dijo Simson Garfinkel, quien creó un corpus de 1 millón de archivos, incluidos miles de archivos PDF. , llamado GOVDOCS1 en 2008 cuando era profesor asociado en la Escuela Naval de Posgrado en Monterey, California. «PDF es uno de los tipos de archivos más importantes en Internet en la actualidad, y esta contribución de aproximadamente 8 terabytes de datos brinda a profesores, estudiantes y corporaciones datos de referencia actualizados que impulsarán la investigación en los años venideros».

Citación: Se ha creado el archivo PDF más grande del mundo para ayudar en la investigación de malware (14 de junio de 2023) consultado el 14 de junio de 2023 en https://techxplore.com/news/2023-06-world-largest-pdf-archive-aid.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.

Fuente

Battlefield Redsec se está deshaciendo del Marauder Marauder tremendamente dominado de Battle Royale

ChatGPT obtiene la actualización instantánea GPT-5.3 con menos ‘vergüenza’ y menos alucinaciones

Las mejores ofertas de Nintendo Switch esta semana (3 de marzo de 2026)

Los AirPods 4 con ANC caen al precio más bajo de 2026

El paquete Story Rich Adventures de Fanatical incluye 17 increíbles juegos narrativos

Primera superficie de pruebas comparativas del iPad Air M4

Se ha creado el archivo PDF más grande del mundo para ayudar en la investigación de malware

Una proeza digital

Un laboratorio de inteligencia artificial dice que robots respaldados por China están ejecutando ataques de ciberespionaje. Los expertos tienen preguntas.

Los investigadores revelan la primera defensa contra ataques criptoanalíticos a la IA

Anthropic advierte sobre una campaña de piratería impulsada por IA vinculada a China

Un estudio para comprender mejor el ciberdelito en África occidental podría ser clave para combatir el fraude en línea

Cinco minutos de entrenamiento aumentan la capacidad de detectar caras falsas generadas por IA

La verificación de edad en línea está creando un tesoro de datos para los piratas informáticos

Los pedidos anticipados de Prince Of Persia: The Lost Crown ya están disponibles

Qué hacer en Lover’s Pond en Tears of the Kingdom (TotK)