Cómo la Inteligencia Artificial está mejorando la gestión de datos

Thomas H. Davenport and Thomas C. Redman 22 Feb 2023

La inteligencia artificial está mejorando silenciosamente la gestión de datos, incluida su calidad, accesibilidad y seguridad.

La Inteligencia Artificial (IA) y la gestión de datos es crucial para crear un entorno en el que los datos puedan ser útiles en toda la organización. Una gestión eficaz de los datos minimiza los problemas derivados de los datos erróneos, como la fricción añadida. Las predicciones deficientes e incluso la simple inaccesibilidad, idealmente antes de que se produzcan.

Sin embargo, la gestión de datos es una actividad que requiere mucho trabajo: Implica limpiar, extraer, integrar, catalogar, etiquetar y organizar los datos, así como definir y llevar a cabo las numerosas tareas. Todas ellas relacionadas con los datos que a menudo provocan frustración tanto entre los científicos de datos como entre los empleados sin “datos” en sus títulos.

Te puede interesar:
El arte, la ley y la inteligencia artificial

La inteligencia artificial se ha aplicado con éxito de miles de formas, pero una de las menos visibles y espectaculares es la mejora de la gestión de datos. Hay cinco áreas comunes de gestión de datos en las que vemos que la IA desempeña papeles importantes:

1. Clasificación

Abarca ampliamente la obtención, extracción y estructuración de datos de documentos, fotos, escritura a mano y otros medios.

2. Catalogación

Ayuda a localizar datos.

3. Calidad

Reducción de errores en los datos.

4. Seguridad

Mantener los datos a salvo de agentes malintencionados y asegurarse de que se utilizan de acuerdo con las leyes, políticas y costumbres pertinentes.

5. Integración de datos

Ayudar a crear “listas maestras” de datos, por ejemplo fusionando listas.

A continuación analizamos cada una de estas áreas. También describimos el panorama de los proveedores y las formas en que los humanos son esenciales para la gestión de datos.

La Inteligencia Artificial al rescate (parcial)

La tecnología por sí sola no puede sustituir a los buenos procesos de gestión de datos, como atacar la calidad de los datos de forma proactiva, asegurarse de que todo el mundo entiende sus funciones. Además de sus responsabilidades.

Crear estructuras organizativas como cadenas de suministro de datos y establecer definiciones comunes de términos clave. Pero la IA es un recurso valioso que puede mejorar drásticamente tanto la productividad como el valor que las empresas obtienen de sus datos. He aquí las cinco áreas en las que la IA puede tener un mayor impacto en la gestión eficaz de los datos de una organización.

Área 1: Clasificación

La clasificación y extracción de datos es un área amplia, y se ha ampliado aún más a medida que se han digitalizado más medios y que las redes sociales se han centrado cada vez más en imágenes y vídeo.

En los entornos en línea actuales, la moderación de contenidos para identificar publicaciones inapropiadas no sería posible a gran escala sin la IA (aunque muchos humanos también siguen trabajando en este campo).

Incluimos en esta área la clasificación (¿se trata de incitación al odio?), la resolución de identidad/identidad (¿se trata de un humano o de un bot y, si es humano, de cuál?), el cotejo (¿la desconocida de la base de datos A es la misma humana que J.E. Doe de la base de datos B?), la extracción de datos (¿cuáles son los datos más importantes de este expediente judicial?), etc.

Durante muchos años, se han utilizado formas primitivas de IA para el reconocimiento óptico de caracteres (OCR) con el fin de extraer datos importantes. El reconocimiento óptico de caracteres se ha convertido en algo tan común que ya no se considera IA. Los sistemas de IA más recientes han ampliado el reconocimiento óptico de caracteres con modelos de aprendizaje profundo que ahora son capaces de leer con precisión la escritura manuscrita humana.

¿Dónde están los datos?

Los datos importantes suelen estar atrapados en formatos de documentos poco flexibles, como faxes, PDF y largos documentos de procesamiento de textos, y para poder acceder a ellos. Con ello se podrá analizarlos o incluso responder a preguntas sobre ellos, pero primero hay que extraerlos.

En el sector sanitario, por ejemplo, la información se sigue transmitiendo por fax, y acceder a ella ha exigido un gran esfuerzo humano. Una empresa de historiales médicos electrónicos escribió un programa de IA para extraer datos de los faxes e introducirlos directamente en el sistema de historiales médicos electrónicos, lo que ahorra mucho tiempo.

Los programas de IA también pueden identificar y extraer disposiciones importantes de los contratos, lo que resulta útil para abogados y auditores, entre otros.

Área 2: Catalogación

Durante décadas, las empresas han carecido de una orientación precisa sobre dónde residen los datos clave en todos sus sistemas y registros. Afortunadamente, la catalogación de datos ha surgido en los últimos años como una ayuda importante para seguir la pista de ese material. Sin embargo, crear y mantener actualizados estos catálogos ha requerido mucho trabajo.

La IA puede automatizar las búsquedas en diversos depósitos de datos y crear catálogos automáticamente. Los sistemas de IA pueden capturar cualquier metadato que exista en la documentación del sistema. La IA también puede describir el linaje de los datos: dónde se originaron, quién los creó, cómo se han modificado y dónde residen actualmente.

Pero aunque crear catálogos e información sobre el linaje de los datos es más fácil con la IA, las empresas deben seguir luchando con el desorden de sus entornos de datos existentes.

Resistencia a los datos

Muchas empresas se han resistido a crear catálogos utilizando métodos tradicionales que requieren mucho trabajo porque no querían revelar el alcance del desorden arquitectónico, o porque querían esperar hasta que los datos estuvieran mejor organizados y fueran de mayor calidad antes de dedicarles el gran esfuerzo que ello supone. Sin embargo, la facilidad para crear y actualizar catálogos con IA significa que las empresas pueden combinar un acceso más sencillo a la información con procesos de mejora continua de los datos.

Área 3: Calidad

Las herramientas de calidad de datos implementan esencialmente controles, normalmente mediante reglas de negocio, que definen los dominios de los valores de datos permitidos. Pensemos en una fecha compuesta por un día y un mes. Sólo hay 366 combinaciones de valores permitidos.

Así, “Jebruary” no es un mes permitido, “35” no es un día permitido y “February 31” no es una combinación permitida. Definir, codificar y mantener actualizadas las reglas de negocio es especialmente oneroso y un área en la que vemos grandes beneficios en la IA basada en el aprendizaje automático.

Las herramientas de IA pueden escanear datos para identificar valores no permitidos, con algunos valores erróneos corregidos automáticamente y otros asignados a alguna persona o grupo para su corrección. Varios proveedores ya presumen de que sus herramientas emplean el aprendizaje automático para estos fines.

Te puede interesar:
¡Mi jefe es un robot! Empresa nombra a Inteligencia Artificial como su CEO

¿Qué otras cosas puede hacer la Inteligencia Artificial?

La IA también puede desempeñar otras funciones relacionadas con la calidad de los datos, como aumentar los datos con información adicional de otras bases de datos internas o externas. También puede hacer predicciones sobre cómo rellenar las lagunas de datos que faltan y eliminar datos que se han duplicado o que se utilizan poco.

Es importante destacar que los proveedores podrían mejorar sus herramientas si apoyaran un enfoque más proactivo de la gestión de la calidad de los datos. Esto centrado en prevenir los errores de datos en lugar de encontrarlos y corregirlos. Para ello, los controles deben aplicarse lo más cerca posible de los puntos de creación de los datos. Además, las herramientas deberían hacer que las mediciones de la calidad de los datos estuvieran estrechamente alineadas con el impacto empresarial y apoyar el control estadístico de los procesos y la mejora de la calidad.

Área 4: Seguridad

Preservar la seguridad y la privacidad de los datos son cuestiones críticas para cualquier organización hoy en día. Desde el nacimiento de la profesión de protección de datos, la prevención de hackeos, brechas y denegaciones de servicio han sido en gran medida actividades humanas.

La IA puede ayudar en muchas de estas funciones. Es útil, por ejemplo, en la inteligencia sobre amenazas: observar el mundo exterior, sintetizar las señales de amenaza, los actores y el lenguaje. La inteligencia sobre amenazas basada en IA es una respuesta a los numerosos retos a los que se enfrentan los profesionales de la ciberseguridad, como el elevado volumen de actores de amenazas, las cantidades masivas de información aparentemente sin sentido y la escasez de profesionales cualificados.

Las principales soluciones emplean el aprendizaje automático para automatizar la recopilación de datos de seguridad en múltiples sistemas internos y externos. También crear datos estructurados a partir de formatos no estructurados y evaluar qué amenazas son más creíbles.

Los sistemas de IA pueden predecir posibles rutas de ataque basándose en patrones de ataques anteriores y determinar si las nuevas amenazas proceden de actores conocidos o de otros nuevos. Dado el número de falsos positivos en ciberamenazas a través de múltiples sistemas de seguridad desconectados, una combinación de reglas de decisión y modelos de aprendizaje automático puede priorizar o clasificar las amenazas para su investigación humana.

¿Qué pasa si hay sistemas de aprendizaje no supervisado?

Los sistemas de aprendizaje no supervisado pueden identificar anomalías en los entornos informáticos de una organización. Como patrones inusuales de acceso o direcciones IP poco comunes que acceden a los sistemas de la organización. Estos enfoques tienen la ventaja de no necesitar ser entrenados en enfoques pasados de ciberseguridad, que siempre están sujetos a cambios.

La IA también puede utilizarse para identificar amenazas internas de fraude o incumplimiento de la normativa. Esta capacidad es de especial interés para sectores muy regulados, como la banca y las inversiones. El software de IA supervisa las comunicaciones digitales dentro de una organización e identifica lenguaje o patrones de comportamiento sospechosos. Por supuesto, es necesaria la investigación humana para confirmar la conducta indebida de empleados o clientes.

Área 5: Integración de datos

Quizás una de las mayores mejoras de la Inteligencia Artificial en la gestión de datos se encuentra en el área de la integración de datos, también conocida como masterización, que implica la creación de un registro de datos maestro o “de oro” que sea la mejor fuente posible de un elemento de datos dentro de una organización.

¿Por qué las empresas necesitan la integración?

Las empresas pueden necesitar la integración de datos por varias razones: porque proliferaron diferentes versiones de datos clave a lo largo del tiempo. Esto porque quieren reutilizar datos transaccionales con fines analíticos o porque adquirieron o se fusionaron con empresas que tienen sus propias bases de datos. Combinar y dominar los datos de una gran organización ha sido históricamente una tarea ingente que ha requerido años de esfuerzo.

En el pasado, el enfoque más común para la integración de datos era la gestión de datos maestros, que utilizaba un conjunto de reglas de negocio para decidir. Por ejemplo, si un determinado conjunto de registros de clientes o proveedores debían combinarse porque eran esencialmente el mismo registro. Sin embargo, crear y revisar un amplio conjunto de reglas era tan difícil y costoso que muchos proyectos de integración de datos se abandonaban antes de completarse.

Ahora, los sistemas de masterización basados en aprendizaje automático de empresas como Tamr utilizan técnicas de correspondencia probabilística para decidir si los registros deben combinarse.

Los registros que tienen una alta probabilidad de ser la misma entidad (por ejemplo, el 90% o más) se fusionan automáticamente. Los relativamente pocos registros que no pueden resolverse con este método pueden ser revisados por expertos en la materia.

Te puede interesar:
La Inteligencia Artificial como arma de guerra

El entorno de proveedores de Inteligencia Artificial y datos

Las empresas que buscan emplear la IA para mejorar ampliamente sus situaciones de gestión de datos tienen dos opciones principales entre los proveedores de estas herramientas: Pueden optar por una solución integral, cara y, en el mejor de los casos, poco transparente, o improvisar un conjunto de sistemas de Inteligencia Artificial de propósito único.

Empresas como Palantir, que inicialmente se centró en el mercado de defensa e inteligencia pero que ha ampliado su campo de acción a las aplicaciones comerciales, representan la primera opción. Otros proveedores que se acercan a la amplitud de la oferta de gestión de datos de Palantir son:

ollibra, Informatica, IBM y Talend.

Otros se centran en tipos de datos concretos, como Splunk para datos de máquinas.

La mayoría de los proveedores que ofrecen productos de propósito único son pequeños y poco conocidos. Algunos grandes proveedores en la nube ofrecen herramientas de Inteligencia Artificial para datos, pero tener múltiples opciones entre las que elegir suele confundir a los clientes potenciales.

El entorno de proveedores de estas herramientas está cambiando rápidamente: Un proveedor nos dijo:

“Hay una startup cada día en este espacio, y la mayoría ofrece una herramienta que es ridículamente estrecha.”

Las grandes empresas de servicios profesionales pueden representar una tercera posibilidad para las empresas que quieren utilizar la IA para la gestión de datos. Varias han formado alianzas con empresas más pequeñas para integrar sus opciones, y con otras más grandes para ofrecer servicios de configuración y personalización.

Una gran empresa de servicios está explorando nuevos modelos de negocio con clientes que no se basan en los acuerdos habituales de tiempo y materiales, sino en el suministro de registros de datos limpios. En un entorno tan complejo, es probable que ese nivel de simplicidad resulte atractivo para muchas organizaciones.

Lo que la Inteligencia Artificial no puede hacer y lo que más importan los humanos

Aunque la IA está avanzando en la mejora de la gestión de datos, todavía hay muchas cosas que no puede hacer. En general, los buenos datos siguen requiriendo buenos gestores que se preocupen por ellos, los consideren un activo importante y establezcan un sistema de gestión que los trate como tales.

Entre las tareas específicas para las que la IA aún no es de gran ayuda se incluyen las siguientes:

Crear una estrategia de datos y decidir qué datos son los más importantes para una empresa.
Crear una cultura basada en los datos.
Calibrar sensores o equipos.
Desarrollar políticas y estructuras de gobernanza de datos.
Definir términos empresariales clave o establecer un lenguaje común.
Determinar si una organización está utilizando los datos correctos o los incorrectos para resolver un problema.
Recomendar dónde debe una organización almacenar o procesar sus datos.
Sancionar a quienes cometan infracciones de ciberseguridad o fraudes relacionados con los datos.

Los seres humanos aún serán necesarios

Por tanto, todas las organizaciones seguirán necesitando seres humanos para gestionar los datos, tanto los empleados normales que los crean y utilizan como los profesionales de la gestión de datos.

Es inevitable que las tareas de gestión de datos altamente estructuradas y realizadas con frecuencia se automaticen con la ayuda de la IA, ya sea ahora o en un futuro próximo. Esta es una buena noticia en general para la gestión de datos y sus usuarios y profesionales. Aunque los puestos de trabajo de algunos profesionales de la gestión de datos de bajo nivel pueden cambiar drásticamente o incluso desaparecer.

En las organizaciones que creen que los buenos datos son importantes para sus operaciones presentes y futuras, es importante planificar para qué tareas quieren utilizar la IA. Qué actividades seguirán perteneciendo a los humanos y cómo trabajarán ambas juntas.

SOBRE LOS AUTORES

Thomas H. Davenport (@tdav) es Catedrático Distinguido del Presidente de Tecnología y Gestión de la Información en el Babson College, profesor visitante en la Saïd Business School de Oxford y miembro de la Iniciativa del MIT sobre la Economía Digital. Es coautor de Working With AI: Real Stories of Human-Machine Collaboration (MIT Press, 2022). Thomas C. Redman (@thedatadoc1) es presidente de la consultora Data Quality Solutions, con sede en Nueva Jersey, y coautor de The Real Work of Data Science: Turning Data Into Information, Better Decisions, and Stronger Organizations (Wiley, 2019).

Síguenos en Google Noticias para mantenerte informado

Síguenos en Google News