El verdadero negocio de los Datos Sintéticos

Comparte éste artículo

Social Facebook Social Twitter Social Whatsapp Social Linkedin

A menudo es difícil acceder a los datos del mundo real necesarios para entrenar modelos de IA u obtener información, pero las nuevas técnicas para generar conjuntos de datos similares pueden ayudar.

MIT SMR México se financia mediante anuncios y socios

Los datos son el combustible esencial que impulsa las iniciativas de aprendizaje automático y análisis avanzado de las organizaciones, pero entre las preocupaciones de privacidad y los problemas de proceso, no siempre es fácil para los investigadores tener en sus manos lo que necesitan. Una nueva vía prometedora para explorar son los datos sintéticos, que se pueden compartir y utilizar de formas en que los datos del mundo real no pueden. Sin embargo, este enfoque emergente no está exento de riesgos o inconvenientes, y es esencial que las organizaciones exploren cuidadosamente dónde y cómo invierten sus recursos.

¿Qué son los Datos Sintéticos?

Los datos sintéticos se generan artificialmente mediante un algoritmo de IA que ha sido entrenado en un conjunto de datos reales. Tiene el mismo poder predictivo que los datos originales, pero los reemplaza en lugar de disfrazarlos o modificarlos. El objetivo es reproducir las propiedades estadísticas y los patrones de un conjunto de datos existente modelando su distribución de probabilidad y muestreando. Básicamente, el algoritmo crea nuevos datos que tienen todas las mismas características de los datos originales, lo que conduce a las mismas respuestas. Sin embargo, lo que es más importante, es prácticamente imposible reconstruir los datos originales (piense en información de identificación personal) a partir del algoritmo o de los datos sintéticos que ha creado.

MIT SMR México se financia mediante anuncios y socios

Los datos sintéticos son una bendición para los investigadores. Considere lo que están haciendo los Institutos Nacionales de Salud de EE. UU. Con Syntegra, una empresa emergente de servicios de TI. Syntegra está utilizando su motor de datos sintéticos para generar y validar una réplica no identificable de la base de datos de los NIH de registros de pacientes de COVID-19, que comprende más de 2,7 millones de personas examinadas y más de 413.000 pacientes COVID-19 positivos. El conjunto de datos sintéticos, que duplica con precisión las propiedades estadísticas del conjunto de datos original pero sin vínculos con la información original, puede ser compartido y utilizado por investigadores de todo el mundo para aprender más sobre la enfermedad y acelerar el progreso en tratamientos y vacunas.

La tecnología tiene potencial en una variedad de industrias. En los servicios financieros, donde las restricciones sobre el uso de datos y la privacidad del cliente son particularmente limitantes, las empresas están comenzando a utilizar datos sintéticos para ayudarles a identificar y eliminar sesgos en la forma en que tratan a los clientes, sin contravenir las regulaciones de privacidad de datos. Y los minoristas están viendo el potencial de nuevas fuentes de ingresos derivadas de la venta de datos sintéticos sobre el comportamiento de compra de los clientes sin revelar información personal.

El valor para el negocio: seguridad, velocidad y escala

El beneficio más obvio de los datos sintéticos es que elimina el riesgo de exponer datos críticos y comprometer la privacidad y seguridad de empresas y clientes. Técnicas como el cifrado, el anonimato y la preservación avanzada de la privacidad (por ejemplo, cifrado homomórfico o cálculo seguro de varias partes) se centran en proteger los datos originales y la información que contienen los datos que podría rastrearse hasta un individuo. Pero mientras los datos originales estén en juego, siempre existe el riesgo de comprometerlos o exponerlos de alguna manera.

Al eliminar los bloqueos de los protocolos de privacidad y seguridad que consumen mucho tiempo, los datos sintéticos también permiten que las organizaciones obtengan acceso a los datos más rápidamente. Considere una institución financiera que tenía un caché de datos ricos que podrían ayudar a los tomadores de decisiones a resolver una variedad de problemas comerciales. Los datos estaban tan altamente protegidos que acceder a ellos fue un proceso arduo, incluso para uso puramente interno. En un caso, se necesitaron seis meses para obtener solo una pequeña cantidad de datos y otros seis meses para recibir una actualización. Ahora que la empresa está generando datos sintéticos basados en los datos originales, el equipo puede actualizarlos y modelarlos continuamente y generar conocimientos continuos sobre cómo mejorar el desempeño comercial.

Además, con datos sintéticos, una empresa puede entrenar rápidamente modelos de aprendizaje automático en grandes conjuntos de datos, acelerando los procesos de entrenamiento, prueba e implementación de una solución de inteligencia artificial. Esto aborda un desafío real al que se enfrentan muchas empresas: la falta de datos suficientes para entrenar un modelo. El acceso a un gran conjunto de datos sintéticos brinda a los ingenieros de aprendizaje automático y a los científicos de datos más confianza en los resultados que obtienen en las diferentes etapas del desarrollo del modelo, y eso significa llegar al mercado más rápidamente con nuevos productos y servicios.

La seguridad y la velocidad también permiten la escala, lo que aumenta la cantidad de datos disponibles para el análisis. Si bien las empresas actualmente pueden comprar datos de terceros, a menudo es prohibitivamente costoso. La compra de conjuntos de datos sintéticos de terceros debería hacer que a las empresas les resulte fácil y económico aportar más datos para resolver el problema que están intentando resolver y obtener respuestas más precisas.

Por ejemplo, cada banco tiene la obligación de identificar y eliminar el fraude. Esa es una búsqueda solitaria y que requiere muchos recursos para cada banco, porque los reguladores permiten que un banco examine solo sus propios datos en busca de actividad sospechosa. Si los bancos juntaran sus conjuntos de datos sintéticos, podrían obtener una imagen holística de todas las personas que interactúan con los bancos en un país en particular, no solo su propia organización, lo que ayudaría a agilizar y acelerar el proceso de detección y, en última instancia, eliminar más fraudes utilizando menos recursos.

¿Por qué no todo el mundo lo usa?

Si bien los beneficios de los datos sintéticos son convincentes, realizarlos puede resultar difícil. La generación de datos sintéticos es un proceso extremadamente complejo y, para hacerlo bien, una organización necesita hacer más que simplemente conectar una herramienta de inteligencia artificial para analizar sus conjuntos de datos. La tarea requiere personas con habilidades especializadas y conocimientos verdaderamente avanzados de IA. Una empresa también necesita marcos y métricas muy específicos y sofisticados que le permitan validar que creó lo que se propuso crear. Aquí es donde las cosas se vuelven especialmente difíciles.

La evaluación de datos sintéticos es complicada por los diferentes casos de uso potenciales. Se necesitan tipos específicos de datos sintéticos para diferentes tareas (como la predicción o el análisis estadístico), y estos vienen con diferentes métricas de rendimiento, requisitos y restricciones de privacidad. Además, las diferentes modalidades de datos dictan sus propios requisitos y desafíos únicos.

Un ejemplo simple: supongamos que está evaluando datos que incluyen una fecha y un lugar. Estas dos variables discretas operan de diferentes maneras y requieren diferentes métricas para rastrearlas. Ahora imagine datos que incluyen cientos de variables diferentes, todas las cuales deben evaluarse con métricas muy específicas, y puede comenzar a ver el alcance de la complejidad y el desafío. Estamos apenas en las etapas iniciales de la creación de herramientas, marcos y métricas necesarias para evaluar y “garantizar” la precisión de los datos sintéticos. Llegar a un enfoque industrializado y repetible es fundamental para crear datos sintéticos precisos a través de un proceso estándar aceptado y de confianza por todos.

Otro factor que frena el concepto de datos sintéticos es la resistencia cultural que encuentra en muchas empresas: “No funcionará en nuestra empresa”. “No me fío, no suena seguro”. “Los reguladores nunca lo aceptarán”. Educar a los ejecutivos de alto nivel, así como a los equipos legales y de riesgo, y convencerlos de que los datos sintéticos funcionan será fundamental para la adopción.

¿Qué puede salir mal?

Probar la veracidad de los datos sintéticos es un punto crítico. El equipo que trabaja en el esfuerzo debe poder demostrar que los datos artificiales que creó realmente representan los datos originales, pero no se pueden vincular ni exponer el conjunto de datos original de ninguna manera. Eso es muy difícil de hacer. Si no coincide con precisión, el conjunto de datos sintéticos no es realmente válido, lo que abre una serie de problemas potenciales.

Por ejemplo, supongamos que ha creado un conjunto de datos sintéticos para informar el desarrollo de un nuevo producto. Si el conjunto sintético no representa realmente el conjunto de datos del cliente original, es posible que contenga las señales de compra incorrectas con respecto a lo que los clientes están interesados o dispuestos a comprar. Como resultado, podrías terminar gastando mucho dinero creando un producto que nadie quiere.

La creación de datos sintéticos incorrectos también puede poner a una empresa en problemas con los reguladores. Si el uso de dichos datos conduce a un problema legal o de cumplimiento, como la creación de un producto que dañó a alguien o no funcionó como se anuncia, podría significar sanciones financieras sustanciales y, posiblemente, un escrutinio más detallado en el futuro. Los reguladores recién están comenzando a evaluar cómo se crean y miden los datos sintéticos, sin mencionar cómo se comparten, y sin duda tendrán un papel que desempeñar en la orientación de este ejercicio.

Una ramificación distante, pero aún real, de los datos sintéticos creados incorrectamente es la posibilidad de lo que se conoce como ataques de inferencia de miembros. Todo el concepto de datos sintéticos es que no están vinculados de ninguna manera a los datos originales. Pero si no se crea exactamente de la manera correcta, los actores malintencionados podrían encontrar una vulnerabilidad que les permita rastrear algunos puntos de datos hasta el conjunto de datos original e inferir quién es una persona en particular. Luego, los actores pueden usar este conocimiento para investigar y cuestionar continuamente el conjunto sintético y eventualmente descubrir el resto, exponiendo todo el conjunto de datos original. Técnicamente, esto es extremadamente difícil de hacer. Pero con los recursos adecuados, no es imposible y, si tiene éxito, las implicaciones podrían ser nefastas.

Un problema potencial con los datos sintéticos que puede resultar incluso si el conjunto de datos se creó correctamente es el sesgo, que puede infiltrarse fácilmente en los modelos de IA que han sido entrenados en conjuntos de datos creados por humanos que contienen sesgos históricos inherentes. Los datos sintéticos se pueden utilizar para generar conjuntos de datos que se ajusten a una definición previamente acordada de equidad. Usando esta métrica como una restricción para un modelo de optimización, el nuevo conjunto de datos no solo reflejará con precisión el original, sino que lo hará de una manera que cumpla con la definición específica de equidad. Pero si una empresa no realiza ajustes complejos en los modelos de IA para tener en cuenta el sesgo y simplemente copia el patrón del original, los datos sintéticos tendrán los mismos sesgos y, en algunos casos, incluso podrían amplificar esos sesgos.

Qué se necesita para avanzar

Con la maduración de las habilidades, los marcos, las métricas y las tecnologías relevantes, las empresas escucharán mucho más sobre los datos sintéticos en los próximos años. Mientras sopesan si tiene sentido para ellos, las empresas deben considerar las siguientes cuatro preguntas:

1. ¿Saben las personas adecuadas en lo que nos estamos metiendo? Los datos sintéticos son un concepto nuevo y complicado para la mayoría de las personas. Antes de que se implemente cualquier programa de datos sintéticos, es importante que todo el C-suite, así como los equipos legales y de riesgo, comprendan completamente qué es, cómo se usará y cómo podría beneficiar a la empresa.

2. ¿Tenemos acceso a las habilidades necesarias? La creación de datos sintéticos es un proceso muy complejo, por lo que las organizaciones deben determinar si sus científicos e ingenieros de datos son capaces de aprender a hacerlo. Deben considerar la frecuencia con la que crearán dichos datos, lo que influirá en si deben dedicar tiempo y dinero a desarrollar esta capacidad o contratar expertos externos según sea necesario.

3. ¿Tenemos un propósito claro? Los datos sintéticos deben generarse con un propósito particular en mente, porque el uso previsto afecta cómo se generan y cuáles de las propiedades de los datos originales se conservan. Y si un uso potencial es venderlo para crear una nueva fuente de ingresos, la planificación de este nuevo modelo de negocio potencial es clave.

4. ¿Cuál es la escala de nuestras ambiciones? La creación de datos sintéticos no es para los débiles de corazón. La gran complejidad asociada con hacerlo bien, y los posibles peligros de hacerlo mal, significa que las organizaciones deben estar seguras de que ofrecerán suficiente valor a cambio.

Aunque los datos sintéticos todavía están a la vanguardia de la ciencia de datos, más organizaciones están experimentando cómo sacarlos del laboratorio y aplicarlos a los desafíos comerciales del mundo real. Queda por ver cómo se desarrolla esta evolución y la línea de tiempo que seguirá. Pero los líderes de las organizaciones basadas en datos deberían tenerlo en su radar y estar preparados para considerar su aplicación cuando sea el momento adecuado para ellos.

Fecha original de publicación: Oct. 20 2021