in

Así es como el aprendizaje automático puede violar su privacidad

Privacy

Privacidad

Crédito: Pixabay/CC0 Dominio público

El aprendizaje automático ha traspasado los límites en varios campos, incluido Medicina personalizada, coches sin conductor y anuncios personalizados. Sin embargo, las investigaciones han demostrado que estos sistemas memorizan aspectos de los datos con los que fueron entrenados para aprender patrones, lo que genera preocupación por la privacidad.

En estadística y aprendizaje automático, el objetivo es aprender de datos pasados ​​para hacer nuevas predicciones o inferencias sobre datos futuros. Para lograr este objetivo, el estadístico o experto en aprendizaje automático selecciona un modelo para capturar los patrones sospechosos en los datos. Un modelo aplica una estructura simplificadora a los datos, lo que permite aprender patrones y hacer predicciones.

Los modelos complejos de aprendizaje automático tienen algunas ventajas y desventajas inherentes. En el lado positivo, pueden aprender patrones mucho más complejos y trabajar con conjuntos de datos más completos para tareas como reconocimiento de imagen y predecir cómo responderá una persona específica a un tratamiento.

Sin embargo, también tienen el riesgo de sobreajuste a los datos. Esto significa que hacen predicciones precisas sobre los datos con los que fueron entrenados, pero comienzan a aprender aspectos adicionales de los datos que no están directamente relacionados con la tarea en cuestión. Esto conduce a modelos que no están generalizados, lo que significa que funcionan mal con datos nuevos que son del mismo tipo pero no exactamente iguales que los datos de entrenamiento.

Si bien existen técnicas para abordar el error de predicción asociado con el sobreajuste, también existen preocupaciones sobre la privacidad al poder aprender tanto de los datos.

Cómo los algoritmos de aprendizaje automático hacen inferencias

Cada modelo tiene un número determinado de parámetros. Un parámetro es un elemento de un modelo que se puede cambiar. Cada parámetro tiene un valor o configuración que el modelo deriva de los datos de entrenamiento. Los parámetros pueden considerarse como los diferentes controles que se pueden girar para afectar el rendimiento del algoritmo. Mientras que un patrón de línea recta tiene sólo dos perillas, el pendiente e intersecciónlos modelos de aprendizaje automático tienen muchas parámetros. Por ejemplo, el modelo de lenguaje. GPT-3tiene 175 mil millones.






Se explican los conceptos básicos del aprendizaje automático.

Para elegir los parámetros, los métodos de aprendizaje automático utilizan datos de entrenamiento con el objetivo de minimizar el error predictivo en los datos de entrenamiento. Por ejemplo, si el objetivo es predecir si una persona respondería bien a un determinado tratamiento médico en función de su historial médico, el modelo de aprendizaje automático haría predicciones sobre los datos donde los desarrolladores del modelo sabrían si alguien respondió bien o mal. El modelo es recompensado por las predicciones correctas y penalizado por las incorrectas, lo que lleva al algoritmo a ajustar sus parámetros (es decir, girar algunas de las «perillas») y volver a intentarlo.

Para evitar el sobreajuste de los datos de entrenamiento, los modelos de aprendizaje automático se comparan con un conjunto de datos de validación también. El conjunto de datos de validación es un conjunto de datos separado que no se utiliza en el proceso de capacitación. Al verificar el rendimiento del modelo de aprendizaje automático en este conjunto de datos de validación, los desarrolladores pueden asegurarse de que el modelo sea capaz de generalizar su aprendizaje más allá de los datos de entrenamiento, evitando el sobreajuste.

Si bien este proceso logra garantizar un buen rendimiento del modelo de aprendizaje automático, no impide directamente que el modelo de aprendizaje automático memorice información en los datos de entrenamiento.

Preocupaciones sobre la privacidad

Debido a la gran cantidad de parámetros en los modelos de aprendizaje automático, existe la posibilidad de que el método de aprendizaje automático memoriza algunos datos en los que fue entrenado. De hecho, este es un fenómeno generalizado y los usuarios pueden extraer los datos memorizados del modelo de aprendizaje automático utilizando consultas adaptadas para obtener los datos.

Si los datos de entrenamiento contienen información confidencial, como datos médicos o genómicos, entonces la privacidad de las personas cuyos datos se utilizaron para entrenar el modelo podría verse comprometida. Investigaciones recientes demostraron que en realidad es necesario que los modelos de aprendizaje automático memoricen aspectos de los datos de entrenamiento para conseguir un rendimiento óptimo resolviendo determinados problemas. Esto indica que puede haber un equilibrio fundamental entre el rendimiento de un método de aprendizaje automático y la privacidad.

Los modelos de aprendizaje automático también permiten predecir información confidencial utilizando datos aparentemente no confidenciales. Por ejemplo, Target era capaz de predecir qué clientes probablemente estaban embarazadas analizando los hábitos de compra de los clientes que se registraron en el registro de bebés de Target. Una vez que el modelo fue entrenado en este conjunto de datos, pudo enviar anuncios relacionados con el embarazo a clientes que sospechaba que estaban embarazadas porque compraron artículos como suplementos o lociones sin perfume.






La privacidad diferencial es un método para proteger la privacidad de las personas cuando sus datos se incluyen en grandes conjuntos de datos.

¿Es posible la protección de la privacidad?

Si bien se han propuesto muchos métodos para reducir la memorización en los métodos de aprendizaje automático, la mayoría se han propuesto. en gran medida ineficaz. Actualmente, la solución más prometedora a este problema es garantizar un límite matemático al riesgo de privacidad.

El método más moderno para la protección formal de la privacidad es privacidad diferencial. La privacidad diferencial requiere que un modelo de aprendizaje automático no cambie mucho si los datos de un individuo cambian en el conjunto de datos de entrenamiento. Los métodos de privacidad diferencial logran esta garantía al introducir aleatoriedad adicional en el aprendizaje del algoritmo que «encubre» la contribución de cualquier individuo en particular. Una vez que un método está protegido con privacidad diferencial, no es posible ningún ataque. puede violar esa garantía de privacidad.

Sin embargo, incluso si un modelo de aprendizaje automático se entrena utilizando privacidad diferencial, eso no impide que haga inferencias sensibles como en el ejemplo de Target. Para evitar estas violaciones de la privacidad, es necesario proteger todos los datos transmitidos a la organización. Este enfoque se llama privacidad diferencial localy Manzana y Google lo han implementado.

Debido a que la privacidad diferencial limita cuánto puede depender el modelo de aprendizaje automático de los datos de un individuo, esto impide la memorización. Desafortunadamente, también limita el rendimiento de los métodos de aprendizaje automático. Debido a esta compensación, existen críticas sobre la utilidad de la privacidad diferencial, ya que a menudo resulta en una importante caída en el rendimiento.

Avanzando

Debido a la tensión entre el aprendizaje inferencial y las preocupaciones por la privacidad, en última instancia existe una cuestión social sobre qué contexto es más importante y en qué contexto. Cuando los datos no contienen información confidencial, es fácil recomendar el uso de los métodos de aprendizaje automático más potentes disponibles.

Sin embargo, cuando se trabaja con datos confidenciales, es importante sopesar las consecuencias de las filtraciones de privacidad y puede ser necesario sacrificar parte del rendimiento del aprendizaje automático para proteger la privacidad de las personas cuyos datos entrenaron el modelo.

Proporcionado por La Conversación


Este artículo se republica desde La conversación bajo una licencia Creative Commons. Leer el artículo original.La conversación

Citación: Así es como el aprendizaje automático puede violar su privacidad (23 de mayo de 2024) recuperado el 23 de mayo de 2024 de https://techxplore.com/news/2024-05-machine-violate-privacy.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

La vulnerabilidad de la red Wi-Fi de Apple podría filtrar su ubicación en tiempo real

Roblox Las Recompensas Clásicas

Todas las recompensas en Roblox The Classic y cómo conseguirlas