Los informáticos de la Facultad de Ingeniería y Ciencias Aplicadas de la Universidad de Pensilvania han diseñado un «ataque de reconstrucción» que demuestra que los datos del censo de EE. UU. son vulnerables a la exposición y el robo.
Aaron Roth, Profesor Henry Salvatori de Informática y Ciencias Cognitivas en Informática y Ciencias de la Información (CIS), y Michael Kearns, Profesor del Centro Nacional de Gestión y Tecnología en CIS, dirigieron una reciente PNAS estudio que demuestra que las estadísticas publicadas por la Oficina del Censo de los EE. UU. pueden modificarse mediante ingeniería inversa para revelar información protegida sobre encuestados individuales.
Con una potencia informática no superior a la de una computadora portátil comercial y un diseño de algoritmo extraído de los fundamentos del aprendizaje automático, el equipo de investigación estableció los riesgos para la privacidad de la población estadounidense.
El estudio se destaca por ser el primero de su tipo en determinar una línea de base para la susceptibilidad inaceptable a la exposición. Además, demuestra que un ataque tiene los medios para determinar la probabilidad de que un registro reconstruido corresponda a los datos de una persona real, lo que hace aún más probable que este tipo de ataque pueda hacer que los encuestados sean vulnerables al robo de identidad o discriminación.
Los hallazgos agudizan lo que está en juego en uno de los debates más importantes de la era digital sobre políticas públicas.
«Durante las últimas dos décadas ha quedado claro que las prácticas de uso generalizado para la privacidad de datos (anonimizar o enmascarar registros, engrosar respuestas granulares o agregar datos individuales en estadísticas a gran escala) no funcionan», dice Kearns. «En respuesta, los informáticos han creado técnicas para garantizar la privacidad de forma demostrable».
«El sector privado», agrega Roth, «ha estado aplicando estas técnicas durante años. Pero los programas y políticas estadísticas de larga duración del Censo tienen complicaciones adicionales».
Por ejemplo, el Censo tiene el mandato constitucional de realizar una encuesta de población completa cada diez años. Estos datos se utilizan para funciones políticas, económicas y sociales clave: distribución de escaños en la Cámara, trazado de límites de distritos, determinación de montos de fondos federales para usos estatales y locales, financiamiento de ayuda en casos de desastre, programas de asistencia social, expansión de infraestructura y más. Los datos también proporcionan herramientas vitales para los investigadores demográficos en el gobierno y la academia.
Si bien la información del censo es pública, existen leyes estrictas que rigen la privacidad de los datos individuales. Con este fin, las estadísticas disponibles públicamente agregan las respuestas de la encuesta de cada encuestado, reflejando la población con precisión matemática sin revelar directamente la información personal de los individuos.
El problema es que estas estadísticas agregadas son un candado que se puede abrir y todo lo que se necesita son las herramientas adecuadas. Los atacantes pueden usar estos agregados para aplicar ingeniería inversa a conjuntos de registros consistentes con estadísticas confirmadas, un proceso conocido como «reconstrucción».
En respuesta a estos riesgos, el Censo realizó su propio ataque de reconstrucción interna entre las encuestas de 2010 y 2020 para evaluar la necesidad de un cambio en la presentación de informes. Los hallazgos ameritaron una revisión del Censo de las medidas de confidencialidad y la decisión de implementar una técnica de protección comprobable conocida como «privacidad diferencial».
La privacidad diferencial oculta los datos individuales mientras mantiene la integridad del conjunto de datos más grande. Cynthia Dwork, profesora Gordon McKay de informática en la Universidad de Harvard y colaboradora de Roth y Kearns en el estudio, co-inventó la técnica en 2006. El trabajo de Dwork es importante por ser el primero en proporcionar «privacidad» con una definición matemáticamente rigurosa.
En lugar de informar estadísticas que reflejen de forma transparente las respuestas verdaderas, la privacidad diferencial introduce cantidades estratégicas de datos falsos, conocidos como «ruido», que consisten en números positivos o negativos generados aleatoriamente con un promedio de aproximadamente cero. A gran escala, la interferencia del ruido en la corrección estadística es insignificante. Pero surgen complicaciones en las estadísticas demográficas que describen poblaciones pequeñas, donde el ruido tiene un efecto relativamente mayor en los informes.
El equilibrio entre precisión y privacidad es complejo.
Ciertos científicos sociales han argumentado que la práctica del Censo de publicar estadísticas agregadas no presenta ningún riesgo inherente. Si bien reconoce que los registros individuales son susceptibles de reconstrucción a través de conjeturas o comparaciones con documentación pública, esta parte sostiene que la decisión del Censo de implementar la privacidad diferencial es pobre, alegando que la tasa de éxito para reconstruir registros individuales no es mejor que la casualidad.
Pero el trabajo de Roth y Kearns ha demostrado lo contrario, ejecutando consultas que funcionan como diagramas de Venn con cientos de miles de óvalos superpuestos. Estas superposiciones señalan la probabilidad de precisión en las posibles configuraciones de datos que coinciden con las estadísticas disponibles públicamente, lo que permite a los atacantes superar cualquier línea de base posible por probabilidad aleatoria.
«Lo novedoso de nuestro enfoque es que mostramos que es posible identificar qué registros reconstruidos tienen más probabilidades de coincidir con las respuestas de una persona real», dice Kearns. «Otros ya han demostrado que es posible generar registros reales, pero somos los primeros en establecer una jerarquía que permitiría a los atacantes, por ejemplo, priorizar a los candidatos para el robo de identidad según la probabilidad de que sus registros sean correctos».
En cuanto a las complicaciones que plantea la adición de errores a las estadísticas que desempeñan un papel tan importante en la vida de la población estadounidense, los investigadores son realistas.
«El Censo todavía está determinando cuánto ruido será útil y justo para equilibrar la compensación entre precisión y privacidad. Y, a la larga, puede ser que los encargados de formular políticas públicas decidan que los riesgos que plantean los no ruidosos las estadísticas valen la transparencia», dice Roth.
Pero cuando se trata de garantías absolutas para la protección de datos individuales, Roth y Kearns afirman sin lugar a dudas: «La privacidad diferencial es el único juego en la ciudad».
Más información:
Travis Dick et al, Reconstrucción clasificada de confianza de microdatos censales a partir de estadísticas publicadas, procedimientos de la Academia Nacional de Ciencias (2023). DOI: 10.1073/pnas.2218605120
Citación: Datos del censo de EE. UU. vulnerables a ataques sin medidas de privacidad mejoradas, muestra un estudio (2023, 21 de febrero) recuperado el 21 de febrero de 2023 de https://techxplore.com/news/2023-02-census-vulnerable-privacy.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.