La importancia de preservar tu privacidad al compartir datos
La privacidad diferencial puede salvaguardar la información personal cuando se comparten datos, pero requiere un alto nivel de experiencia.
A medida que las organizaciones buscan explotar cada vez más los datos, tanto para uso interno como para compartirlos con socios en ecosistemas digitales, se enfrentan a más leyes que exigen protecciones de privacidad de los consumidores más estrictas.
Desafortunadamente, los enfoques tradicionales para salvaguardar la información confidencial pueden fallar espectacularmente, exponiendo a las organizaciones a litigios, sanciones reglamentarias y riesgos para la reputación.
Aprende de ciberseguridad jugando, así es la gamificación
Desde la década de 1920, los estadísticos han desarrollado una variedad de métodos para proteger las identidades y los detalles confidenciales de las personas cuya información se recopila.
Pero la experiencia reciente ha demostrado que incluso cuando se eliminan nombres, números de seguridad social y otros identificadores, un hacker habilidoso puede tomar los registros redactados, combinarlos con información disponible públicamente y volver a identificar registros individuales o revelar información confidencial, como los patrones de viaje de celebridades o funcionarios del gobierno.
El problema, según han descubierto los informáticos, es que cuanta más información publique una organización, más probable es que se pueda descubrir información de identificación personal, sin importar qué tan bien estén protegidos esos detalles.
Resulta que la protección de la privacidad y la publicación de datos precisos y útiles están inherentemente en oposición.
En un esfuerzo por abordar este dilema, los informáticos han desarrollado un enfoque matemático llamado privacidad diferencial (DP), que funciona al hacer explícita esa compensación: para garantizar que la privacidad esté protegida, se debe sacrificar cierta precisión en los datos.
Además, DP brinda a las organizaciones una forma de medir y controlar el intercambio. Muchos investigadores ahora consideran a DP como el estándar de oro para la protección de la privacidad, lo que permite a los usuarios publicar estadísticas o crear nuevos conjuntos de datos mientras controlan el grado en que la privacidad puede verse comprometida.
Perspectivas de la ciberseguridad laboral
Cómo funciona la privacidad diferencial
Inventado en 2006, DP funciona agregando pequeños errores, llamados ruido estadístico, a los datos subyacentes o al calcular los resultados estadísticos.
En general, más ruido produce más protección de la privacidad y resultados menos precisos.
Si bien el ruido estadístico se ha utilizado durante décadas para proteger la privacidad, lo que hace que DP sea una tecnología innovadora es la forma en que otorga un valor numérico a la pérdida de privacidad que se produce cada vez que se divulga la información.
Las organizaciones pueden controlar cuánto ruido estadístico agregar a los datos y, como resultado, cuánta precisión están dispuestas a intercambiar para garantizar una mayor privacidad.1
La Oficina del Censo de EE.UU. desarrolló el primer producto de datos que utilizó DP en 2008. Llamado OnTheMap, proporciona estadísticas detalladas de salarios y desplazamientos para diferentes áreas geográficas.
Se puede usar, por ejemplo, para determinar cuántas personas que viven, por ejemplo, en Montclair, Nueva Jersey, viajan al trabajo en el bajo Manhattan, junto con su edad promedio, ingresos, raza y la industria en la que trabajan.
Para evitar que la información se use para identificar a un solo viajero, dónde trabaja y cuánto gana, DP agrega ruido a los datos originales al cambiar la cantidad de personas que viven y trabajan en cada bloque censal.
Desde la introducción de DP, la Oficina del Censo lo ha utilizado para publicar el censo de 2020, y el Servicio de Impuestos Internos y el Departamento de Educación de EE.UU. ahora usan DP para publicar estadísticas sobre los ingresos de los graduados universitarios. Más de 20 empresas han dicho que han implementado o están considerando usar DP, incluidas Apple, Google, Meta, Microsoft y Uber.
Microsoft Excel: 10 trucos que pueden convertir a cualquiera en un experto
Surgió una controversia el año pasado cuando la Oficina del Censo utilizó DP para proteger los datos del censo utilizados por los estados para trazar los distritos legislativos y del Congreso.
Todos los registros del archivo fueron sintéticos, generados por un modelo estadístico creado y protegido mediante DP. Los demógrafos y científicos sociales se opusieron al uso de DP, advirtiendo que se agregaría tanto ruido que los resultados podrían ser inútiles.
Alabama y otros 16 estados demandaron en abril de 2021 para bloquear la medida, diciendo que DP “haría imposible una redistribución de distritos precisa a nivel local”. Pero en junio de 2021, un panel de tres jueces rechazó las solicitudes clave de la demanda y Alabama retiró su demanda en septiembre de 2021.2
La capacidad de DP para ajustar el nivel de protección o pérdida de privacidad es tanto su fortaleza como su debilidad.
Por primera vez, los profesionales de la privacidad tienen una forma de cuantificar el riesgo que conlleva la divulgación de datos confidenciales.
Por otro lado, obliga a los propietarios de datos a enfrentarse a la incómoda verdad de que el riesgo de privacidad puede ajustarse pero no eliminarse. Esta verdad a menudo ha sido ignorada por los legisladores de ambos lados del Atlántico.
Las regulaciones de privacidad generalmente tienen como objetivo salvaguardar la información que es personalmente identificable, cualquier cosa que permita aislar los detalles sobre un individuo y los legisladores suelen escribir estas reglas en términos de blanco y negro o la información está protegida o no lo está. DP demuestra que la privacidad de los datos es mucho más complicada.
La experiencia ha demostrado que cualquier dato sobre individuos es potencialmente identificable si se combina con suficiente información adicional necesaria.
Por ejemplo, los investigadores de la Universidad de Texas identificaron a los suscriptores de Netflix al combinar las clasificaciones de películas de IMDB con una lista “anonimizada” que publicó Netflix de películas que los suscriptores vieron y calificaron.
Los investigadores demostraron que los registros individuales podían volver a identificarse y vincularse al suscriptor. La compañía fue demandada bajo la Ley de Protección de Privacidad de Video y resolvió la demanda colectiva por 9 millones de dólares.
DP debe aplicarse a toda la información que está asociada de alguna manera con un individuo, no solo a la que es personalmente identificable.
Esto hace posible controlar la cantidad de datos que se liberan y la cantidad de privacidad que se pierde, según las necesidades únicas de una organización y lo que considera que es su umbral de privacidad.
5 consejos para proteger tus datos personales de ciberdelincuentes
Tres enfoques diferentes para DP
Los investigadores de privacidad han desarrollado tres modelos distintos para usar DP. El modelo de curador de confianza. Una organización que utiliza datos confidenciales aplica ruido a los resultados estadísticos que publica para un consumo más amplio.
Este es el enfoque utilizado por la Oficina del Censo para publicar información protegida por privacidad, como su producto OnTheMap.
El modelo de curador de confianza puede proteger tanto los datos que se publican como los que se utilizan dentro de una organización.
En 2018, Uber creó un sistema de DP para la investigación interna que incluía datos sobre pasajeros y conductores, registros de viaje e información que la empresa recopila para mejorar la experiencia del cliente.
DP permitió a los analistas de Uber evaluar el rendimiento de sus sistemas sin ver los detalles sobre los pasajeros individuales y sus viajes. Microdatos sintéticos protegidos por DP. Este es un enfoque adicional que pueden usar las organizaciones que aplican el modelo de curador de confianza.
En este caso, la organización crea un modelo estadístico de los datos originales y luego aplica la DP al modelo para crear un nuevo modelo protegido por privacidad.
Este modelo se utiliza luego para crear registros individuales. Estos registros de microdatos pueden contener información sobre la edad, el nivel educativo y los ingresos de una persona que producen resultados estadísticos similares cuando se analizan, pero que no coinciden exactamente con los de una persona real.
La ventaja de los microdatos es que se pueden distribuir o volver a analizar repetidamente sin pérdida de privacidad adicional.
Cómo la Inteligencia Artificial está mejorando la gestión de datos
Pero es difícil crear registros de microdatos precisos que tengan más de unas pocas columnas de datos, y no se pueden vincular fácilmente con otros conjuntos de datos a nivel de registro porque los datos protegidos carecen de identificadores como nombres o números de Seguro Social.
El modelo local. El ruido estadístico se agrega a cada registro de datos a medida que se recopila y antes de enviarlo a los analistas (ya sea internos o externos).
Google usó este método para producir estadísticas sobre los usuarios de su navegador web Chrome, incluida información sobre las páginas de inicio de los usuarios, los sitios visitados y los diversos procesos que ejecutaban sus computadoras, como una forma de mejorar su capacidad para bloquear malware sin recopilar información confidencial.
Pero Google finalmente abandonó la herramienta porque “simplemente hay demasiado ruido”, dijo un ex investigador de Google en ese momento.
En cambio, la empresa pasó a un enfoque más complicado que combinaba la mezcla anónima y el modelo de curador de confianza.
En general, el modelo de curador de confianza funciona mejor para organizaciones como la Oficina del Censo que trabajan con datos que ya tienen.
El modelo local es atractivo para las organizaciones que anteriormente se habían abstenido de recopilar datos debido a problemas de privacidad.
Apple, por ejemplo, quería saber qué texto escribían las personas cuando usaban emoji, como si las personas ingresaban “corazón” o “amor” para el emoji de corazón, y usaban el modelo local para proteger la privacidad de los usuarios.
Con este método, una organización puede decir que está aplicando tecnología de protección de la privacidad a los datos antes de recopilarlos.
Entonces, ¿está la DP lista para los negocios?
En esta etapa, DP aún es una tecnología joven y solo se puede usar en circunstancias limitadas, principalmente para estadísticas numéricas que se basan en datos confidenciales, como las estadísticas geográficas que se usan en la aplicación OnTheMap. DP no funciona bien (todavía) para proteger texto, fotos, voz o video.
Debido a que DP tiene una curva de aprendizaje pronunciada, aquellos interesados en la tecnología deben comenzar poco a poco, con proyectos piloto bien definidos.
Por ejemplo, una empresa de servicios públicos local a la que se le pidió que compartiera los registros de morosidad de los clientes podría proporcionar un conjunto de datos protegidos por DP que indicará la cantidad de personas en cada bloque con mayor probabilidad de ser morosas, sin identificar los hogares individuales.
Luego, un programa de asistencia de emergencia podría usar los datos para enfocarse de manera limitada en los bloques con el mayor riesgo de delincuencia en lugar de cubrir toda la región.
DP también se puede utilizar para crear microdatos protegidos por privacidad, aunque este enfoque se limita a datos con solo una pequeña cantidad de variables.
Los líderes necesitan tecnología de datos para conocer mejor a sus colaboradores
Por ejemplo, Google respondió a la pandemia publicando “Informes de movilidad comunitaria” de COVID-19, que mostraban la cantidad de personas que se trasladaban diariamente entre hogares, oficinas, supermercados, estaciones de tránsito y otros lugares.
Convirtió los microdatos (cada ubicación individual) en forma de coordenadas de latitud y longitud de las ubicaciones (es decir, registros con dos columnas) en las seis categorías generales de ubicación y usó DP para oscurecer la cantidad de personas en cada categoría.
Las empresas que consideren DP deben comenzar consultando o contratando a un experto con credenciales académicas avanzadas en informática o un campo similar. (LinkedIn ha contratado a expertos en privacidad con nivel de doctorado para desarrollar sus estadísticas de participación de la audiencia).
La información más confiable sobre la tecnología se encuentra en documentos académicos altamente técnicos y algunas ofertas de trabajo reflejan esto al exigir a los solicitantes que hayan publicado documentos técnicos o desarrollado información disponible públicamente código PD. Es probable que intentar usar DP ahora sin este tipo de experiencia conduzca a errores.
Con un experto en DP disponible, una organización está en una mejor posición para evaluar las herramientas de DP actualmente disponibles, tanto comerciales como de código abierto, para determinar cuál se adaptará mejor a las necesidades del caso de uso en mente.
Las empresas deben preguntarse: ¿La tecnología está diseñada para proteger los datos que ya están disponibles o la información que se recopila recientemente? Si se trata de datos existentes, ¿es necesario proteger los resultados estadísticos o los microdatos a nivel de registro? ¿Qué capacitación, materiales educativos o soporte brinda el proveedor?
En el corto plazo, DP aún puede ser demasiado complejo para la mayoría de las organizaciones.
Sin embargo, hoy pueden mejorar sus protecciones de privacidad al adoptar algunos de los principios subyacentes de la tecnología, como agregar ruido estadístico a sus productos de datos, incluso si carecen de la capacidad de medir con precisión la compensación real entre privacidad y precisión.
SOBRE LOS AUTORES
Simson L. Garfinkel es científico de datos sénior en la Oficina del Director de Información del Departamento de Seguridad Nacional de los EE. Comité de Política Pública de Tecnología de EE. UU. Este artículo fue escrito a título personal y no refleja la política oficial del DHS. Claire McKay Bowen se enfoca en la privacidad y confidencialidad de los datos como investigadora asociada principal en Urban Institute. Ambos autores trabajaron anteriormente en iniciativas de privacidad en la Oficina del Censo de EE. UU.
REFERENCIAS
1. Si bien no exploraremos las matemáticas de DP aquí, los lectores que deseen saber más deben dirigirse a C.M. Bowen y S. Garfinkel, “La filosofía de la privacidad diferencial”, Avisos de la American Mathematical Society 68, no. 10 (noviembre de 2021): 1727-1739; y A. Wood, M. Altman, A. Bembenek, et al., “Privacidad diferencial: un manual para una audiencia no técnica”, Vanderbilt Journal of Entertainment and Technology Law 21, no. 1 (otoño de 2018): 209-276.
2. Para una discusión sobre la controversia que involucra el despliegue de DP y el Censo de EE. UU. de 2020, consulte S. Garfinkel, “Differential Privacy and the 2020 U.S. Census”, MIT Case Studies in Social and Ethical Responsibilities of Computing (invierno de 2022), mit -serc.pubpub.org.