¿Cómo medir el impacto comercial de los proyectos de IA?

La mayoría de los proyectos de IA informan solo sobre métricas técnicas que no les dicen a los líderes sobre cuánto valor comercial se podría entregar. Para evitar fracasos en el proyecto, se deben obtener métricas comerciales.

Eric Siegel 12 Jun 2024

“IA” puede significar muchas cosas, pero para las organizaciones que utilizan Inteligencia Artificial para mejorar las operaciones existentes a gran escala, la tecnología aplicable es el aprendizaje automático (ML), que es una base central para la IA.

El aprendizaje automático tiene el potencial de mejorar todo tipo de procesos comerciales. Por ejemplo, genera modelos predictivos que mejoran el marketing dirigido, la mitigación del fraude, la gestión de riesgos financieros y mucho más.

Para diferenciarse de la IA generativa, iniciativas como estas a veces también se denominan IA predictiva o análisis predictivo. Se podría esperar que el rendimiento de estos modelos predictivos de aprendizaje automático estuvieran en el centro de atención. Después de todo, generar valor empresarial es el objetivo.

Pero estarías equivocado. Cuando se trata de evaluar un modelo, la mayoría de los proyectos de ML informan sobre métricas incorrectas. Esto a menudo acaba con el proyecto por completo.

Transformación digital: 3 pasos graduales que deben seguir los fabricantes

Por qué las métricas comerciales deben ser lo primero

Al evaluar los modelos de ML, los científicos de datos se centran casi por completo en métricas técnicas como precisión, recuperación y elevación. Pero estas métricas son críticamente insuficientes.

Nos indican el rendimiento relativo de un modelo predictivo pero no proporcionan una lectura directa sobre el valor comercial absoluto de un modelo. Incluso la métrica más común, la precisión, entra en esta categoría. Además, suele ser impertinente y, a menudo, engañoso.

En cambio, la atención debería centrarse en las métricas comerciales, como los ingresos, las ganancias, los ahorros y la cantidad de clientes adquiridos.

Estas métricas sencillas y destacadas miden las nociones fundamentales de éxito y revelan el verdadero valor de las predicciones imperfectas que ofrece ML. Son fundamentales para construir un puente muy necesario entre los equipos empresariales y de ciencia de datos .

Desafortunadamente, los científicos de datos omiten habitualmente las métricas empresariales de los informes y debates, a pesar de su importancia. En cambio, las métricas técnicas dominan la práctica del LD, tanto en términos de ejecución técnica como en la presentación de informes de resultados a las partes interesadas.

Los científicos de datos lo saben mejor, pero generalmente no lo cumplen, en buena parte porque las herramientas de software de aprendizaje automático generalmente solo ofrecen métricas técnicas.

Según la Encuesta de ciencia de datos de Rexer Analytics de 2023 , los científicos de datos clasifican los KPI empresariales como las métricas más importantes. Aunque dicen que las métricas técnicas son las que se miden con más frecuencia.

Cómo pasar de métricas técnicas IA a métricas comerciales

Profundicemos un poco más para ver qué se necesita para medir el valor comercial. A menudo podemos tender un puente matemático entre el desempeño técnico y el desempeño empresarial incorporando el precio que se paga cuando un modelo predice incorrectamente. Incurre en un costo de clasificación errónea por dos tipos diferentes de error de predicción:

Falso positivo (FP): Cuando un modelo predictivo dice “positivo” pero está equivocado. Es un caso negativo que el modelo ha marcado erróneamente como positivo.

Falso negativo (FN): Cuando un modelo predictivo dice “negativo” pero está equivocado. Es un caso positivo que el modelo ha marcado erróneamente como negativo.

La precisión es un instrumento contundente. Una cosa es saber que un modelo está equivocado, digamos, el 12 por ciento de las veces. Eso es lo mismo que decir que es correcto el 88 por ciento de las veces.

Pero otra cosa, mucho más útil, es desglosar por separado con qué frecuencia es incorrecto en los casos positivos y en los casos negativos. La precisión no hace eso.

Un ejemplo: costos de detección de fraude

¿Cómo se puede asignar un costo comercial a las clasificaciones erróneas de FP y FN? Todo se reduce a cuánto importa cada tipo de error. Para casi todos los proyectos, un error de FP tiene una importancia diferente que un error de FN.

Tomemos como ejemplo la detección de fraude. Cuando el modelo de su banco bloquea erróneamente su transacción legítima con tarjeta de crédito como si fuera fraudulenta, te sientes incómodo. Eso es un FP y podría costarle al banco 100 dólares en promedio.

El otro tipo de error es peor. Cuando el modelo del banco permite erróneamente que se realice un cargo fraudulento en una tarjeta de crédito, eso podría costarle al banco 500 dólares en promedio. Eso es un FN.

Estos costos de FN no son un asunto menor. Las pérdidas mundiales por fraude con tarjetas de pago han superado los 28 mil millones de dólares al año .

Al determinar los dos costos de clasificación errónea, establecemos un análisis de costo-beneficio no solo para todo el proyecto sino también para cada decisión individual.

Consejos para que los líderes empresariales replanteen sus valores en la actualidad

Sacrificar la precisión técnica del análisis IA tiene sentido

Sin un modelo de detección de fraude implementado, un banco regional de tamaño mediano podría estar perdiendo 50 millones de dólares al año. Considera un banco que ha emitido 100 mil tarjetas de crédito y cada tarjeta realiza un promedio de mil transacciones por año, de las cuales 1 de cada mil es fraudulenta. Para resumir:

Transacciones anuales: 100 millones
Porcentaje que son fraudulentos: 0.1 por ciento
Transacciones fraudulentas anuales: 100 mil
Costo por transacción fraudulenta: 500 dólares (el costo FN)
Pérdida anual por fraude: 100 mil × 500 dólares = 50 millones de dólares

Parece que, después de todo, el crimen sí paga. Pero antes de dejar tu trabajo diario para unirse a las filas de los estafadores, debes saber que la detección del fraude puede mejorar la situación.

De hecho, en el ejemplo anterior, podrías ahorrar 16 millones de dólares. La clave es desarrollar un modelo de detección de fraude que proporcione un equilibrio ventajoso entre FP (menos costosos) y FN (más costosos).

Más allá de ofrecer valor empresarial, la detección del fraude persigue un objetivo social: luchar contra el crimen. En el ejemplo mostrado, la detección de fraude bloquea más de la mitad de los intentos de transacciones fraudulentas.

De este modo, cumple con las expectativas de los consumidores. Aunque a la gente a veces le molesta que su comportamiento sea predicho por modelos.

Tomar mejores decisiones basadas en la IA, aumenta el valor

Al informar sobre el valor comercial absoluto de un modelo de detección de fraude, en lugar de solo su desempeño relativo en términos de elevación o cualquier otra métrica técnica, las partes interesadas del negocio reciben algo real para evaluar.

Estos actores pueden tomar una decisión informada sobre si autorizar la implementación del modelo de aprendizaje automático, cómo y cuándo.

Es hora de un cambio: los científicos de datos deben informar sobre métricas comerciales como parte de su práctica habitual. Aunque hoy en día es poco común cerrar la brecha entre las métricas técnicas y las de negocios, es un problema que se puede superar fácilmente.

Necesitarás líderes y científicos de datos que estén dispuestos a repensar la forma en que discuten e informan sobre los proyectos de ML.

SOBRE EL AUTOR

Eric Siegel es consultor y ex profesor de la Escuela de Negocios Darden de la Universidad de Columbia y la Universidad de Virginia. Es el fundador de Machine Learning Week y autor de The AI Playbook: Mastering the Rare Art of Machine Learning Deployment (MIT Press, 2024) y Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die (Wiley, 2013).

DESCARGA GRATIS