Imagine que un equipo de científicos ha desarrollado un modelo de aprendizaje automático que puede predecir si un paciente tiene cáncer a partir de imágenes de escaneo de pulmón. Quieren compartir este modelo con hospitales de todo el mundo para que los médicos puedan empezar a utilizarlo en los diagnósticos.
Pero hay un problema. Para enseñarle a su modelo cómo predecir el cáncer, le mostraron millones de imágenes reales de escaneo pulmonar, un proceso llamado entrenamiento. Esos datos confidenciales, que ahora están codificados en el funcionamiento interno del modelo, podrían ser extraídos por un agente malicioso. Los científicos pueden evitar esto agregando ruido, o una aleatoriedad más genérica, al modelo que dificulta que un adversario adivine los datos originales. Sin embargo, la perturbación reduce la precisión de un modelo, por lo que cuanto menos ruido se pueda agregar, mejor.
Los investigadores del MIT ahora han desarrollado una técnica que permite al usuario agregar potencialmente la menor cantidad de ruido posible, al tiempo que garantiza que los datos confidenciales estén protegidos.
Los investigadores crearon una nueva métrica de privacidad, a la que llaman Privacidad probablemente aproximadamente correcta (PAC), y crearon un marco basado en esta métrica que puede determinar automáticamente la cantidad mínima de ruido que debe agregarse. Además, este marco no necesita conocer el funcionamiento interno de un modelo o su proceso de entrenamiento, lo que facilita su uso para diferentes tipos de modelos y aplicaciones.
En varios casos, los investigadores muestran que la cantidad de ruido necesaria para proteger los datos confidenciales de los adversarios es mucho menor con PAC Privacy que con otros enfoques. Esto podría ayudar a los ingenieros a crear modelos de aprendizaje automático que probablemente oculten datos de entrenamiento, manteniendo la precisión en entornos del mundo real.
«PAC Privacy explota la incertidumbre o la entropía de los datos confidenciales de manera significativa y esto nos permite agregar, en muchos casos, un orden de magnitud menos ruido. Este marco nos permite comprender las características del procesamiento arbitrario de datos y privatizarlo. automáticamente sin modificaciones artificiales. Si bien estamos en los primeros días y estamos haciendo ejemplos simples, estamos entusiasmados con la promesa de esta técnica «, dice Srini Devadas, profesor de ingeniería eléctrica de Edwin Sibley Webster y coautor de un nuevo artículo. sobre la privacidad del PAC.
Devadas escribió el artículo con el autor principal Hanshen Xiao, un estudiante de posgrado en ingeniería eléctrica e informática. La investigación será presentada el 24 de agosto en la Conferencia Internacional de Criptología (Cripto 2023).
Definición de privacidad
Una pregunta fundamental en la privacidad de datos es: ¿Cuántos datos confidenciales podría recuperar un adversario de un modelo de aprendizaje automático con ruido agregado?
La privacidad diferencial, una definición popular de privacidad, dice que la privacidad se logra si un adversario que observa el modelo publicado no puede inferir si los datos de un individuo arbitrario se utilizan para el procesamiento de entrenamiento. Pero probablemente evitar que un adversario distinga el uso de datos a menudo requiere grandes cantidades de ruido para ocultarlo. Este ruido reduce la precisión del modelo.
PAC Privacy ve el problema de manera un poco diferente. Caracteriza lo difícil que sería para un adversario reconstruir cualquier parte de los datos confidenciales generados o muestreados aleatoriamente después de que se haya agregado el ruido, en lugar de centrarse solo en el problema de distinguibilidad.
Por ejemplo, si los datos confidenciales son imágenes de rostros humanos, la privacidad diferencial se centraría en si el adversario puede saber si el rostro de alguien estaba en el conjunto de datos. PAC Privacy, por otro lado, podría analizar si un adversario podría extraer una silueta, una aproximación, que alguien podría reconocer como la cara de un individuo en particular.
Una vez que establecieron la definición de Privacidad PAC, los investigadores crearon un algoritmo que le dice automáticamente al usuario cuánto ruido agregar a un modelo para evitar que un adversario reconstruya con confianza una aproximación cercana de los datos confidenciales. Este algoritmo garantiza la privacidad incluso si el adversario tiene un poder de cómputo infinito, dice Xiao.
Para encontrar la cantidad óptima de ruido, el algoritmo de privacidad de PAC se basa en la incertidumbre, o entropía, en los datos originales desde el punto de vista del adversario.
Esta técnica automática toma muestras aleatoriamente de una distribución de datos o de un gran conjunto de datos y ejecuta el algoritmo de entrenamiento de aprendizaje automático del usuario en esos datos submuestreados para producir un modelo aprendido de salida. Hace esto muchas veces en diferentes submuestreos y compara la varianza en todos los resultados. Esta variación determina cuánto ruido se debe agregar; una variación más pequeña significa que se necesita menos ruido.
Ventajas del algoritmo
A diferencia de otros enfoques de privacidad, el algoritmo de privacidad de PAC no necesita conocer el funcionamiento interno de un modelo o el proceso de entrenamiento.
Al implementar la privacidad de PAC, un usuario puede especificar el nivel de confianza deseado desde el principio. Por ejemplo, tal vez el usuario quiera una garantía de que un adversario no tendrá más del 1% de confianza en que ha reconstruido con éxito los datos confidenciales dentro del 5% de su valor real. El algoritmo de privacidad de PAC le dice automáticamente al usuario la cantidad óptima de ruido que debe agregarse al modelo de salida antes de que se comparta públicamente, para lograr esos objetivos.
«El ruido es óptimo, en el sentido de que si agrega menos de lo que le decimos, todas las apuestas podrían cancelarse. Pero el efecto de agregar ruido a los parámetros de la red neuronal es complicado, y no estamos haciendo promesas sobre la utilidad de abandonar el modelo. puede experimentar con el ruido adicional», dice Xiao.
Esto apunta a una limitación de PAC Privacy: la técnica no le dice al usuario cuánta precisión perderá el modelo una vez que se agregue el ruido. PAC Privacy también implica entrenar repetidamente un modelo de aprendizaje automático en muchas submuestras de datos, por lo que puede ser computacionalmente costoso.
Para mejorar la privacidad de PAC, un enfoque es modificar el proceso de capacitación de aprendizaje automático de un usuario para que sea más estable, lo que significa que el modelo de salida que produce no cambia mucho cuando los datos de entrada se submuestrean de un grupo de datos. Esta estabilidad crearía variaciones más pequeñas entre las salidas de las submuestras, por lo que el algoritmo de privacidad de PAC no solo tendría que ejecutarse menos veces para identificar la cantidad óptima de ruido, sino que también tendría que agregar menos ruido.
Un beneficio adicional de los modelos más estables es que a menudo tienen menos errores de generalización, lo que significa que pueden hacer predicciones más precisas sobre datos nunca antes vistos, una situación en la que todos ganan entre el aprendizaje automático y la privacidad, agrega Devadas.
«En los próximos años, nos encantaría profundizar un poco más en esta relación entre la estabilidad y la privacidad, y la relación entre la privacidad y el error de generalización. Estamos llamando a una puerta, pero aún no está claro a dónde conduce esa puerta. ,» él dice.
Más información:
Hanshen Xiao et al, Privacidad PAC: Medición automática de la privacidad y control del procesamiento de datos, arXiv (2022). DOI: 10.48550/arxiv.2210.03458
Citación: Los investigadores crean una técnica de privacidad que protege los datos confidenciales mientras mantienen el rendimiento (14 de julio de 2023) consultado el 14 de julio de 2023 de https://techxplore.com/news/2023-07-privacy-technique-Sensible.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.