La controversia rodea las nuevas medidas de la Oficina del Censo de EE. UU. para preservar la privacidad, pero un nuevo estudio examina cómo el error de datos existente puede plantear un problema aún mayor para las políticas basadas en evidencia. La piedra angular de las medidas de privacidad actualizadas de la Oficina del Censo, la privacidad diferencial, requiere inyectar incertidumbre estadística o ruido al compartir datos confidenciales. Académicos, políticos y activistas han expresado su preocupación por el efecto de este ruido en los usos cruciales de los datos del censo. Sin embargo, la mayoría de los análisis de compensaciones en torno a la privacidad diferencial pasan por alto incertidumbres más profundas en los datos del censo. En un nuevo estudio, los investigadores examinaron cómo las políticas educativas que utilizan datos del censo asignan fondos de manera incorrecta como resultado de la incertidumbre estadística.
El estudio encontró que las asignaciones incorrectas debido al ruido inyectado para la privacidad pueden ser pequeñas o insignificantes, en comparación con las asignaciones incorrectas debido a las fuentes existentes de error de datos, como informes incorrectos o falta de respuesta. Pero el estudio también encuentra que simples reformas de políticas podrían ayudar a que las fórmulas de financiamiento aborden la distribución desigual de la incertidumbre por errores de datos y allanar el camino para nuevas protecciones de privacidad, ofreciendo una vía para el compromiso entre políticas específicas, equidad y mejores protecciones de privacidad.
El estudio, realizado por investigadores de la Universidad Carnegie Mellon (CMU) y publicado en Ciencias, se enfoca en el Título I de la Ley de Educación Primaria y Secundaria, que brinda asistencia financiera a los distritos escolares con un alto número de niños de familias de bajos ingresos para ayudar a garantizar que todos los niños cumplan con los estándares educativos estatales. Los fondos federales se asignan a través de fórmulas basadas principalmente en las estimaciones del censo sobre la pobreza y el costo de la educación en cada estado. En 2021, el gobierno de EE. UU. asignó más de $16 500 millones en fondos del Título I a más de 13 000 distritos escolares y otras agencias educativas locales.
En este estudio, los investigadores utilizaron una simulación exacta del proceso de asignación del Título I para comparar los impactos de política del ruido inyectado para la privacidad con los impactos de la incertidumbre estadística existente. Específicamente, compararon los impactos del error de datos cuantificados y de un posible mecanismo de inyección de ruido diferencialmente privado. Por ejemplo, de los $11,700 millones en fondos del Título I de 2021 que examinó este estudio, $1,060 millones se asignaron fuera de algunos distritos en una ejecución promedio de la simulación debido únicamente a errores de datos. Esta cifra aumentó en solo $ 50 millones cuando los investigadores inyectaron ruido para brindar una protección de privacidad relativamente fuerte.
«Prestamos especial atención a la forma en que el Título I concentra implícitamente los impactos negativos de la incertidumbre estadística en los grupos marginados», explica Ryan Steed, Ph.D. estudiante de Heinz College de CMU, quien dirigió el estudio. «El debilitamiento de la protección de la privacidad ayuda poco a estos grupos y, para ellos, participar en una encuesta del censo puede ser especialmente riesgoso».
Los resultados muestran que las malas asignaciones debido a la incertidumbre estadística perjudican particularmente a los grupos marginados (p. ej., estudiantes negros y asiáticos; distritos con una gran población de estudiantes hispanos). El hecho de que un grupo demográfico perdiera fondos dependía de si sus miembros tendían a vivir en distritos de alta o baja pobreza, incluidos los distritos más densos, generalmente urbanos.
«Sin embargo, también identificamos reformas de políticas que podrían reducir los impactos dispares tanto del error de datos como de los mecanismos de privacidad», señala Steven Wu, profesor asistente en la Facultad de Ciencias de la Computación de la CMU. «Por ejemplo, el uso de promedios de varios años, en lugar de estimaciones de un solo año, redujo tanto la mala asignación general como las disparidades en los resultados».
Entre las limitaciones del estudio, los autores señalan que su estudio no tiene en cuenta los recuentos insuficientes sistemáticos y muchas otras formas no cuantificadas de incertidumbre estadística que afectan las estimaciones de pobreza, incluidas las medidas anteriores para proteger la privacidad, como el intercambio de datos.
«Nuestros resultados sugieren que los impactos de la privacidad diferencial en relación con otras fuentes de error en los datos del censo podrían ser mínimos», señala Alessandro Acquisti, profesor de tecnología de la información y políticas públicas en el Heinz College de CMU, coautor del estudio. «Simplemente reconocer los efectos del error de datos podría mejorar el diseño de políticas futuras tanto para las fórmulas de financiación como para evitar la divulgación».
Privacidad diferencial, la opción correcta para el Censo de EE. UU. de 2020
Ryan Steed et al, Impactos políticos de la incertidumbre estadística y la privacidad, Ciencias (2022). DOI: 10.1126/ciencia.abq4481
Citación: El debate sobre las nuevas medidas de privacidad del censo pasa por alto problemas más importantes con errores de datos en la financiación del Título I (25 de agosto de 2022) consultado el 25 de agosto de 2022 en https://techxplore.com/news/2022-08-debate-census-privacy-overlooks- más grande.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.