in

Nuevo tipo de ataque llamado ‘codificación descendente’ demuestra fallas en la anonimización de datos

Nuevo tipo de ataque llamado 'codificación descendente' demuestra fallas en la anonimización de datos

Nuevo tipo de ataque llamado 'codificación descendente' demuestra fallas en la anonimización de datos

Crédito: Matthew Ansley vía Unsplash

Cuando los conjuntos de datos que contienen información personal se comparten para la investigación o los utilizan las empresas, los investigadores intentan disfrazar los datos, eliminando uno o dos dígitos finales de un código postal, por ejemplo, mientras conservan su utilidad para obtener información.

Pero si bien la desidentificación a menudo tiene como objetivo satisfacer los requisitos legales de privacidad de datos, los métodos más utilizados se encuentran en un terreno técnico inestable.

La científica informática de la Universidad de Chicago, Aloni Cohen, asesta el último golpe decisivo contra las técnicas de desidentificación más populares en un nuevo artículo.

Al describir un nuevo tipo de ataque llamado «codificación descendente» y demostrar la vulnerabilidad de un conjunto de datos no identificados de una plataforma de educación en línea, Cohen envía una advertencia de que estas transformaciones de datos no deben considerarse suficientes para proteger la privacidad de las personas.

«Incluso según los estándares regulatorios, aquí hay un problema», dijo Cohen, profesor asistente de ciencias de la computación.

Sonando la alarma

Durante años, los investigadores de seguridad informática y privacidad han hecho sonar la alarma sobre los métodos más utilizados para desidentificar datos, encontrando nuevos ataques que pueden volver a identificar puntos de datos aparentemente anónimos y proponiendo soluciones. Sin embargo, estos métodos siguen siendo de uso común y se consideran legalmente suficientes para cumplir con las normas de protección de la privacidad, como HIPAA y GDPR.

«Los formuladores de políticas se preocupan por los riesgos del mundo real en lugar de los riesgos hipotéticos», dijo Cohen. «Entonces, la gente ha argumentado que los riesgos de seguridad y privacidad que señalaron los investigadores eran hipotéticos o muy artificiales».

Mientras cursaba su Ph.D. en el MIT, Cohen se dispuso a refutar este argumento. Los métodos de desidentificación más comunes provienen de un enfoque llamado k-anonimato, que transforma los datos lo suficiente como para hacer que cada individuo sea indistinguible de un cierto número de otros individuos en el conjunto de datos. La idea de Cohen era que el mismo objetivo de este método de desidentificación lo dejaba abierto al ataque.

«El objetivo cuando estás haciendo ese tipo de técnica es redactar lo menos posible para garantizar un nivel objetivo de anonimato», dijo Cohen. «Pero si logra ese objetivo de redactar lo mínimo que necesita, entonces el hecho de que sea el mínimo podría indicarle algo sobre lo que se eliminó».

La desidentificación funciona mediante la redacción de cuasiidentificadores, información que se puede combinar con datos de una segunda fuente para eliminar el anonimato de un sujeto de datos. No tener en cuenta todos los cuasi-identificadores posibles puede dar lugar a revelaciones. En un ejemplo famoso, los investigadores tomaron datos de visualización de Netflix no identificados y los combinaron con datos del sitio de reseñas de películas en línea IMDB, identificando a los usuarios en el primer conjunto de datos cuando registraron reseñas de las películas que habían visto recientemente.

Desde estos descubrimientos en la década de 2000, los formuladores de políticas han confiado en los expertos para determinar qué aspectos de un conjunto de datos son cuasi-identificadores o no, para establecer la barrera del anonimato. Cohen probó el extremo: si cada atributo se considera un cuasi-identificador, ¿siguen funcionando el k-anonimato y sus técnicas derivadas?

«Si la desidentificación funciona, debería funcionar cuando todo es casi identificable», dijo Cohen. «Eso es parte de lo que hace que este trabajo sea poderoso. También significa que los ataques funcionan contra casi todas las técnicas relacionadas con el anonimato k en lugar de una específicamente. El ataque de Netflix demostró que es difícil decir qué es y qué no es un cuasi -identificador. Los ataques de codificación descendente muestran que, en ciertos entornos, no importa mucho».

‘No es una varita mágica’

El documento describe dos ataques teóricos y un ejemplo del mundo real que socavan el argumento a favor de estas protecciones. La primera, la codificación descendente, realiza ingeniería inversa de las transformaciones realizadas en los datos, como el ejemplo del código postal mencionado anteriormente. El segundo ataque utiliza la codificación descendente para un ataque de singularización predicada (PSO), un tipo específico de ataque contra los estándares de anonimización de datos bajo la ley de privacidad GDPR de la Unión Europea. Esa prueba fue importante para mostrar a los legisladores que el k-anonimato no es suficiente para la anonimización de «publicar y olvidar» bajo GDPR, dijo Cohen.

“El argumento que estamos presentando es en contra de la idea de que cualquiera de esas técnicas sea suficiente para cumplir con el requisito legal de anonimización”, dijo Cohen. «Estamos rechazando directamente esa afirmación. Incluso según los estándares regulatorios, aquí hay un problema».

Cohen ilustró esta insuficiencia con una demostración separada del mundo real sobre datos no identificados de edX, la popular plataforma de cursos en línea abiertos de forma masiva (MOOC). Al combinar el conjunto de datos con los datos extraídos de los currículos publicados en LinkedIn (información que estaría trivialmente disponible para posibles empleadores), Cohen pudo identificar a las personas que comenzaron pero no completaron los cursos de edX, una posible violación de FERPA, la Ley de Privacidad y Derechos Educativos de la Familia. (edX fue alertado sobre la falla y ha cambiado sus protecciones de datos).

El mensaje para llevar, dijo Cohen, es que estos métodos de desidentificación no son una varita mágica para eliminar las preocupaciones de privacidad cuando se comparten datos potencialmente confidenciales. Él espera que los reguladores se den cuenta de que un enfoque en capas será mucho más efectivo para lograr sus objetivos.

«Si lo que quiere hacer es tomar datos, desinfectarlos y luego olvidarse de ellos, ponerlos en la web o dárselos a algunos investigadores externos y decidir que todas sus obligaciones de privacidad están cumplidas, no puede hacerlo usando estos técnicas», dijo Cohen. “No deberían liberarlo de sus obligaciones de pensar y proteger la privacidad de esos datos”.


No todas las aplicaciones de privacidad son iguales


Más información:
Aloni Cohen, Ataques a las defensas de la desidentificación. www.usenix.org/conference/usen … 2/presentación/cohen

Proporcionado por la Universidad de Chicago


Citación: Un nuevo tipo de ataque llamado ‘codificación descendente’ demuestra fallas en la anonimización de datos (10 de octubre de 2022) recuperado el 10 de octubre de 2022 de https://techxplore.com/news/2022-10-kind-downcoding-flaws-anonymizing.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.



Fuente

Ofertas: el iPad Pro M1 de Apple ve nuevos precios, los mejores de la historia, llegan con hasta $ 300 de descuento

iPhone 14 Detección de accidentes automovilísticos

La detección de accidentes del iPhone 14 confunde los paseos en montaña rusa con accidentes automovilísticos