in

Protección de la identidad de los panelistas en la investigación de mercado

privacidad

privacidad

Crédito: Pixabay/CC0 Dominio público

Alerta de noticias: el hecho de que una empresa de investigación de mercados les diga a los participantes de la encuesta que su información personal permanecerá anónima no significa que sea verdad.

No, esto no es un gran secreto. Pero no solo es posible que la información personal se vea comprometida: según una investigación realizada por un profesor y colegas de Cornell SC Johnson College of Business, es muy probable que la identidad de un participante de la encuesta y otra información confidencial puedan, de hecho, rastrearse hasta el individuo. .

«Cuando las organizaciones publican o comparten datos, cumplen con las normas de privacidad, lo que significa que están suprimiendo o anonimizando la información de identificación personal», dijo Sachin Gupta, Ph.D., profesora de administración Henrietta Johnson Louis en la Universidad Samuel Curtis Johnson. Graduate School of Management, en el SC Johnson College.

“Y piensan que ahora han protegido la privacidad de las personas sobre las que comparten los datos”, dijo. «Pero eso, de hecho, puede no ser cierto, porque los datos siempre se pueden vincular con otros datos».

Casi todos los participantes del panel de investigación de mercado corren el riesgo de perder el anonimato, dicen Gupta y sus colegas en un nuevo artículo, «Riesgo de reidentificación en los datos del panel: protección para el anonimato k», publicado el 7 de octubre en Investigación de Sistemas de Información.

Los coautores son Matthew Schneider, MS, Ph.D., profesor asociado de ciencias de la decisión y sistemas de información de gestión en la Universidad de Drexel; Yan Yu, Ph.D., Profesor Joseph S. Stern de Business Analytics en la Universidad de Cincinnati; y Shaobo Li, profesor asistente de la Escuela de Negocios de la Universidad de Kansas.

No es ningún secreto que los datos personales (nombre, fecha de nacimiento, dirección de correo electrónico y otros identificadores) están flotando en el éter, listos para ser tomados por una persona o empresa altamente motivada. Esto ha sido probado innumerables veces; Gupta y colegas hizo referencia a un artículo de 2008 por un par de investigadores de la Universidad de Texas, Austin, quienes desarrollaron un algoritmo de eliminación del anonimato, Scoreboard-RH, que pudo identificar hasta el 99 % de los suscriptores de Netflix mediante el uso de información anonimizada de una competencia de 2006, destinada a mejorar su servicio de recomendación, junto con información disponible públicamente en Internet Movie Database.

Esa investigación, al igual que la de Gupta, se basa en «cuasi-identificadores» o QID, que son atributos que son comunes tanto en un conjunto de datos anónimo como en un conjunto de datos disponible públicamente, que se puede usar para vincularlos. La medida convencional del riesgo de divulgación, denominada unicidad, es la proporción de personas con QID únicos en un conjunto de datos determinado; El anonimato k es un modelo popular de privacidad de datos destinado a proteger contra el riesgo de divulgación al reducir el grado de singularidad de los QID (es decir, la información QID de cualquier individuo debe ser la misma que la información QID de al menos k-1 otra persona).

«Unicity fue desarrollado para datos transversales, donde tienes una observación por individuo», dijo Gupta. «Pero en muchos de estos conjuntos de datos, tiene datos longitudinales: se observa al mismo individuo a lo largo del tiempo. Y ahora el riesgo de reidentificación cambia, debido a la disponibilidad de múltiples observaciones».

Gupta y sus colegas han desarrollado lo que denominan «sno-unicity», como en unicity de bola de nieve, que es básicamente el riesgo de reidentificación del peor de los casos, ya que recopila de forma iterativa a las personas que pueden ser reidentificadas de forma única por al menos uno de sus múltiples registros. .

En su investigación, Gupta y sus colegas estudiaron los datos de investigación de mercado en 15 categorías de bienes de consumo que se compran con frecuencia, así como las recetas médicas. Descubrieron que, basándose únicamente en la unicidad (solo una observación por panelista), el riesgo de reidentificación en los datos del panel es muy alto: hasta un 64 % para las compras de bebidas carbonatadas, por ejemplo.

Sin embargo, cuando se emplea sno-unicity (múltiples observaciones por panelista), ese número se eleva al 94 % y es más alto en las 15 categorías. En otras palabras, los datos de las personas no son tan seguros como los investigadores de marketing podrían hacerles creer. «Demostramos», dijo Gupta, «que el riesgo de reidentificación en dichos datos está muy subestimado por la medida de unicidad convencional».

Un ejemplo del riesgo: el análisis de los investigadores encontró que entre los hogares que se podían volver a identificar en función de sus compras de refrigerios salados en una tienda determinada, el 20 % compraba cerveza y el 2 % compraba cigarrillos en una tienda diferente. Incluso si esta información nunca se usa, el solo hecho de que se pueda obtener es un compromiso de la privacidad de los datos.

El nuevo enfoque de los investigadores, llamado anonimización k de movimiento mínimo basado en gráficos (k-MM), se diseñó especialmente para preservar la utilidad de los datos de panel con una pérdida mínima de información. La distorsión se usa para proteger las identidades de los panelistas, por ejemplo, modificando levemente las opciones de marca de un panelista, pero afecta negativamente el valor de los datos.

«Los consumidores de este panel de datos están pagando por esta información, por lo que no queremos perder demasiado», dijo Gupta. «Y, sin embargo, queremos proteger la privacidad, por lo que desea encontrar ese punto en la curva en el que garantiza cierto umbral de privacidad, en nuestro caso, k-anonimato, mientras minimiza la pérdida de información».

Aunque se están promulgando leyes de privacidad en los EE. UU. y en otros lugares que dificultarán la obtención de información de manera nefasta, Gupta dijo que esta investigación sigue siendo vital. Los investigadores de mercado seguirán recopilando y almacenando datos, lo que significa que proteger la privacidad seguirá siendo un desafío.

«La naturaleza del problema probablemente se reducirá y cambiará», dijo, «pero no creo que vaya a desaparecer».


Nuevo tipo de ataque llamado ‘codificación descendente’ demuestra fallas en la anonimización de datos


Más información:
Shaobo Li et al, Riesgo de reidentificación en datos de panel: protección para el anonimato k, Investigación de Sistemas de Información (2022). DOI: 10.1287/isre.2022.1169

Proporcionado por la Universidad de Cornell


Citación: Protección de las identidades de los panelistas en la investigación de mercado (10 de octubre de 2022) consultado el 10 de octubre de 2022 en https://techxplore.com/news/2022-10-identities-panelists.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.



Fuente

Written by TecTop

Computadora portátil que muestra el logotipo de Microsoft Power BI

Cómo agregar botones de acción a un informe en Microsoft Power BI

Edición de coleccionista de Horizon Forbidden West

La edición de coleccionista de Horizon Forbidden West cuesta $ 100 nuevamente