Los líderes empresariales deben tomar las decisiones correctas sobre si implementar modelos de IA y con qué amplitud. Haga estas preguntas difíciles.
El poder de la Inteligencia Artificial (IA) y los modelos de aprendizaje automático en los que se basa continúan remodelando las reglas de los negocios. Sin embargo, demasiados proyectos de IA están fracasando, a menudo después de su implementación. Esto que resulta especialmente costoso y vergonzoso.
Pregúntale a Amazon sobre sus fiascos en el reconocimiento facial , o a Microsoft sobre sus errores con su chatbot Tay .
Con demasiada frecuencia, los científicos de datos descartan tales fallas como anomalías individuales sin buscar patrones que puedan ayudar a prevenir fallas futuras.
Los altos directivos empresariales de hoy tienen el poder (y la responsabilidad) de evitar fallos posteriores a la implementación. Pero para hacerlo, deben comprender más sobre los conjuntos de datos y los modelos de datos para poder hacer las preguntas correctas a los desarrolladores de modelos de IA y evaluar las respuestas.
Cómo usar a tu favor el análisis de datos basado en decisiones y hacer crecer a tu empresa
La gran mayoría de la formación de los científicos de datos actuales se centra en la mecánica del aprendizaje automático, no en sus limitaciones. Esto los deja mal equipados para prevenir o diagnosticar adecuadamente las fallas del modelo de IA.
Los desarrolladores deben evaluar la capacidad de un modelo para funcionar en el futuro y más allá de los límites de sus conjuntos de datos de entrenamiento. A este concepto que llaman generalización . Hoy este concepto está mal definido y carece de rigor.
Un dicho en análisis afirma que los desarrolladores de modelos y los artistas comparten el mismo mal hábito de enamorarse de sus modelos.
Los datos, por otro lado, no reciben la atención que requieren. Por ejemplo, es muy fácil para los desarrolladores de modelos de IA conformarse con conjuntos de datos fácilmente disponibles en lugar de buscar otros más adecuados para el problema en cuestión.
Los altos directivos de empresas, que carecen de títulos avanzados en disciplinas técnicas, están aún menos preparados para detectar problemas en la IA.
Sin embargo, son estos líderes empresariales quienes en última instancia deciden si implementar modelos de IA y con qué amplitud.
Con estos antecedentes, recomendamos que los líderes hagan una secuencia de preguntas puntuales en tres etapas clave, basadas en el Marco de Datos Correcto.
El interrogatorio debe comenzar en el momento en que se define el problema y continuar durante la implementación.
Por cierto, si desea ayuda con el vocabulario técnico de la ciencia de datos, busque a alguien que pueda traducirle en reuniones con desarrolladores de modelos. Algunas empresas incluso están estableciendo roles y grupos específicos para cerrar esta brecha entre los equipos de ciencia de datos y los líderes empresariales .
Los desarrolladores deberían comenzar haciendo las dos preguntas siguientes:
Qué buscar en las respuestas: Esta pregunta tiene como objetivo determinar la comprensión que tienen los desarrolladores del modelo del problema real que la empresa trata de resolver. Qué está dentro y fuera del alcance, con respecto a la población de interés. Además, durante cuánto tiempo en el futuro los desarrolladores pretenden que se aplique el modelo.
Esta pregunta prepara el terreno para las dos siguientes. Aconsejamos a los directivos que sean extremadamente exigentes con esta consulta. Demasiados esfuerzos en ciencia de datos se condenan a sí mismos desde el principio al no lograr concretar el planteamiento del problema .
Qué buscar en las respuestas: Esta pregunta podría ser la más crítica. En este punto, los desarrolladores de modelos anticipan qué datos pueden adquirir.
Asegúrate de que los desarrolladores hayan seleccionado los criterios de datos correctos. A continuación, examina si los desarrolladores tienen un plan creíble para obtener datos que cumplan con esos criterios.
Si tus respuestas se quedan cortas en esta etapa, envíalas de nuevo a que las piensen mejor.
Análisis de datos, el gran superpoder para reclutar nuevo talento para la organización
Una vez que los desarrolladores hayan completado la etapa de definición del problema, es hora de construir el modelo de IA. Concéntrate en las siguientes preguntas:
Qué buscar en las respuestas: Aquí deseas verificar que los desarrolladores del modelo realmente obtuvieron los datos que anticiparon adquirir en la Pregunta 2.
Presiónalos para que trabajen criterio por criterio, enumerando las lagunas en los datos de entrenamiento con respecto a los datos correctos, evaluando la gravedad de las brechas y explicando sus planes para cerrar brechas importantes.
Es importante destacar que, fuera de los libros de texto, no existe un conjunto de datos perfecto, así que espera lagunas. Sospecha mucho si los desarrolladores de modelos informan que no hay lagunas.
Qué buscar en las respuestas: Sondea a los desarrolladores de modelos en este momento, cuando acaban de terminar de trabajar con los datos de entrenamiento. Esto es para asegurarte de que hayan pensado en las fuentes de datos futuros.
En caso contrario, pídales que lo consideren detenidamente. (La pregunta 5 continúa con esto.)
Ten en cuenta que validar un modelo “reteniendo” algunos datos de entrenamiento no es una solución aceptable.
En Kaggle.com y otras plataformas de competencia de ciencia de datos, se supone que los datos de entrenamiento tienen una calidad aceptable, incluso impecable.
Los desarrolladores de modelos compiten para crear la mejor predicción basada en un conjunto de datos “reservados“, tomados del mismo conjunto de datos original que los datos de entrenamiento.
Por lo tanto, en todos los aspectos importantes, los datos reservados se parecen a los datos de entrenamiento. En situaciones de la vida real, esto no es lo que sucede.
Por ejemplo, en el sistema de reconocimiento facial de Amazon, los datos de entrenamiento procedían del área geográfica local, mientras que el algoritmo debía aplicarse de forma más amplia. Esto llevó a una “mala calibración del algoritmo”, en palabras del propio Amazon.
¿Por qué hacer estas preguntas antes y durante el despliegue? Querrás preguntarles varias veces porque el equipo aprenderá cosas nuevas durante la implementación.
Qué buscar en las respuestas: Esto se basa en la discusión de la pregunta 4 sobre datos futuros. Aquí, te aseguras de que los desarrolladores tengan un sistema implementado para evaluar datos futuros antes de que el modelo los use o los use para actualizar el modelo.
Esto es importante porque, si bien las empresas esperan lo mejor con la implementación del modelo de IA, hacen bien en prepararse para lo peor.
Los líderes deben asegurarse de que los desarrolladores de modelos tengan un plan de control que prevenga, o al menos proporcione una advertencia temprana, de cambios en los datos futuros o del mal desempeño del modelo.
Por ejemplo, ¿cómo se detectará una disminución gradual en la precisión del modelo a lo largo del tiempo?
Finalmente, investiga los planes de los desarrolladores para actualizar sus modelos a medida que haya datos futuros disponibles.
Qué buscar en las respuestas: Los ingenieros aprendieron hace mucho tiempo que los sistemas técnicos a menudo fallan a pesar de sus mejores esfuerzos.
Por lo tanto, desarrollaron un análisis modal de fallas y efectos, o FMEA , para ayudar a anticipar fallas potenciales antes de que ocurran y implementar planes de contingencia para evitarlas o al menos detectarlas.
Desafortunadamente, muchos científicos de datos aún no han adoptado este método. Insiste en que los desarrolladores de modelos realicen un trabajo equivalente.
Obligarlos a pensar de manera amplia sobre una variedad de fallas potenciales relacionadas con la tecnología, las personas, la calidad de los datos, los cambios en el medio ambiente y otras cuestiones.
Guía ejecutiva para no morir en el intento durante la era del análisis de datos
Somos muy conscientes de que a muchos científicos de datos y desarrolladores de modelos de IA no les gustará responder estas preguntas. Pero dada la alta tasa de fracaso de los proyectos de ciencia de datos, preguntar: “¿Cómo evitarás que el tuyo fracase?” es simplemente una buena gestión.
Es más, como señaló un equipo de investigación de Google :
“Todo el mundo quiere hacer el trabajo del modelo, no el trabajo de los datos”.
Los líderes empresariales no pueden darse ese lujo. Exigir que se ponga énfasis en los datos correctos, no sólo para construir modelos sino también para validarlos y utilizarlos en el futuro, es quizás lo más importante que los gerentes pueden hacer para aumentar la tasa de éxito de los proyectos de aprendizaje automático e IA.
Roger W. Hoerl es profesor Brate-Peschel de Estadística en Union College en Schenectady, Nueva York, y coautor con Ronald D. Snee de Leading Holistic Improvement With Lean Six Sigma 2.0 , 2ª ed. (Pearson FT Press, 2018). Thomas C. Redman es presidente de Data Quality Solutions y autor de People and Data: Uniting to Transform Your Organization (KoganPage, 2023).