Liderazgo Capital Humano Actualidad

Cómo formular las preguntas adecuadas para evitar errores ML

Las soluciones de aprendizaje automático pueden fallar si los científicos de datos no comprueban sus suposiciones. Adoptar una mentalidad de principiante en cualquier ámbito puede ayudar.

Dusan Popovic, Shreyas Lakhtakia, Will Landecker y Melissa Valentine 18 Sep 2024

En nuestras décadas de experiencia en la creación, dirección y estudio de implementaciones de aprendizaje automático (ML) empresariales, hemos visto proyectos que fracasaron porque equipos de ciencia de datos pasaron por alto o entendieron mal una parte engañosamente simple del contexto empresarial.

Esas brechas crean obstáculos para comprender correctamente los datos, su contexto y los usuarios finales previstos. En última instancia esto pone en peligro el impacto positivo que los modelos de ML pueden tener en la práctica.

Publicidad
Publicidad

Hemos descubierto que es mucho menos probable que los pequeños errores se conviertan en proyectos fallidos. Esto ocurre cuando los equipos de desarrollo interactúan con colegas del lado comercial y hacen suficientes preguntas para comprender en profundidad el proceso y el problema en cuestión.

Hacer preguntas puede parecer un paso simple, pero puede que no sea parte de la cultura de una empresa, un equipo o una industria. 

¿Qué es el famoso aprendizaje automático o machine learning? Descubre cómo es que se utiliza

Pregunta ‘¿Cuál es el proceso de negocio?’, no ‘¿Cuál es el conjunto de datos?’

Ante la primera recesión económica provocada por la pandemia de COVID-19, un equipo de finanzas local de una empresa minorista multinacional tuvo el presentimiento de que algunos clientes lograrían sobrevivir, mientras que otros corrían el riesgo de declararse en quiebra.

El equipo se preguntó si el equipo de ciencia de datos de la empresa podría ayudarlos a predecir qué clientes tenían más probabilidades de declararse en quiebra cada mes.

Esta información permitiría al equipo de finanzas identificar a los clientes solventes y extender temporalmente más crédito para ayudarlos durante la recesión. El equipo de finanzas local solicitó este análisis. Con los datos proporcionados, se desarrolló con éxito un modelo que parecía funcionar bien.

Sin embargo, cuando el modelo se implementó con el equipo de finanzas local, dejó de funcionar bien. De hecho, era básicamente inútil para predecir la quiebra de los clientes cada mes, a pesar de su buen desempeño.

El eslabón perdido: La comprensión del proceso

Este equipo central de ciencia de datos recibió y analizó un conjunto de datos convincente y completo. Pero, al haber tenido poca interacción con el equipo que había encargado y utilizaría el modelo, no logró comprender los procesos comerciales subyacentes.

No comprendían el proceso legal de quiebra en el país del que se ocupaba el equipo de finanzas ni cómo la empresa registraba el cronograma de quiebra. Los científicos de datos construyeron el modelo basándose en una variable que marcaba a los clientes como morosos o no y entrenaron al modelo para detectar el patrón típico de transacciones.

Pregunta ‘¿Quiénes son los que toman las decisiones y cuáles son sus incentivos?’, no sólo ‘¿Qué debemos predecir?’

El equipo de gestión de ingresos de la sede central de un gran banco multinacional se enfrentaba a un grave problema. Los márgenes de beneficio de sus negocios de hipotecas para viviendas se habían ido erosionando de forma constante durante varios años consecutivos.

A medida que el equipo investigaba esta tendencia, se enteró de que los agentes que atendían a los clientes y habían estado ofreciendo tasas de interés cercanas al extremo inferior de los rangos discrecionales asignados.

El equipo de gestión de ingresos planteó la hipótesis de que un enfoque basado en datos para establecer las condiciones de los préstamos hipotecarios ayudaría a mejorar las ganancias.

Encargaron un sistema de optimización de precios de préstamos a un equipo centralizado de ciencia de datos, que desarrolló, probó y envió un sistema de ML que había demostrado determinar con éxito las condiciones que maximizaban las ganancias para cada préstamo individual.

Durante la prueba A/B inicial en vivo, el sistema mostró un rendimiento superior al de la mayoría de los agentes de crédito individuales. Sin embargo, ninguno de esos agentes utilizó el sistema después de que se completó la prueba.

El eslabón perdido: Prioridades organizacionales en pugna

Como en la mayoría de las empresas, el directorio ejecutivo del banco define y comunica la estrategia de toda la organización. En este caso, el enfoque estratégico del directorio era la maximización de las ganancias, una prioridad que se transmitía en cascada a las funciones de nivel superior.

Para abordar directamente este objetivo estratégico, el equipo de gestión de ingresos encargó el desarrollo del modelo de precios de maximización de las ganancias. Sin embargo, los usuarios previstos del modelo estaban alojados en la función de banca minorista, que tenía sus propios KPI operativos para las sucursales locales.

Para evitar este tipo de fallas, es esencial que los líderes empresariales y los científicos de datos comprendan mejor a los tomadores de decisiones que utilizan el sistema de ML.

¿Cómo funciona el marketing inteligente y por qué el ML es tan importante?

Pregunta: ‘¿Quiénes son las partes interesadas y qué acciones controlan?’

En las operaciones europeas de Anheuser-Busch InBev, el equipo responsable de la plataforma de comercio electrónico B2B de la empresa buscaba mejorar las tasas de conversión y recompra.

Las promociones en línea eran su herramienta principal para lograr este objetivo. El equipo era responsable de diseñar los aspectos clave, o la mecánica de una promoción. Los gerentes de categoría de la empresa decidían qué marcas se promocionarían y luego las promociones se ejecutaban generalmente en masa cada mes.

Después de ejecutar una serie de promociones, el equipo de la plataforma vio señales de que los distintos clientes preferían distintos tipos de fomentos.

Sin embargo, después de una serie de pruebas A/B en vivo, el equipo de ciencia de datos se sorprendió al ver que el sistema no lograba aumentar las tasas de conversión o recompra de los clientes.

Si bien el modelo subyacente había sido extremadamente bueno para estimar las probabilidades de conversión para cada combinación de cliente y promoción, en las pruebas en vivo el sistema en su conjunto no logró hacer cambios en los indicadores clave de rendimiento más importantes.

El eslabón perdido: Una variable clave que escapaba al control del equipo

Después de investigar el resultado del modelo, el equipo de ciencia de datos descubrió que las mecánicas promocionales no determinaban las compras de los clientes.

En cambio, la variable más significativa resultó ser qué marca se promocionaba. Si a un determinado cliente se le ofrecía la marca adecuada con un descuento, se convertiría independientemente de la mecánica aplicada.

Desafortunadamente, la elección de qué marcas promocionar se hacía en un nivel superior de la organización. Esto significaba que esta información no se podía poner en práctica de inmediato. Se tuvo que implementar una alineación organizacional y una estrecha colaboración interfuncional, no una solución tecnológica.


SOBRE LOS AUTORES

Dusan Popovic es director de ciencia de datos en Anheuser-Busch InBev, Commercial Analytics Europe. Shreyas Lakhtakia es estudiante de posgrado en la Universidad de Stanford. Will Landecker es exdirector de ética de Inteligencia Artificial (IA). Melissa Valentine es profesora adjunta de ciencias de la gestión e ingeniería en la Universidad de Stanford.