Nuestros sitios
Ver edición digital Suscríbete al NEWSLETTER
Compartir

Enmarcar los problemas de la ciencia de datos desde el inicio te evitará dolores de cabeza

Roger W. Hoerl, Diego Kuonen, Thomas C. Redman 17 Abr 2023
Enmarcar los problemas de la ciencia de datos desde el inicio te evitará dolores de cabeza Enmarcar los problemas de la ciencia de datos desde el inicio te evitará dolores de cabeza

El fracaso del proyecto de ciencia de datos a menudo se puede atribuir a una mala definición del problema, pero la intervención temprana puede prevenirlo.


La tasa de fracaso de las iniciativas de ciencia de datos, a menudo estimada en más del 80 por ciento, es demasiado alta.

Hemos pasado años investigando las razones que contribuyen a las bajas tasas de éxito de las empresas y hemos identificado un problema subestimado: con demasiada frecuencia, los equipos saltan directamente al análisis de los datos antes de ponerse de acuerdo sobre el problema a resolver.

Esta falta de comprensión inicial garantiza que muchos proyectos estén condenados al fracaso desde el principio.

Por supuesto, este tema no es nuevo. Se suele citar a Albert Einstein diciendo:

“Si me dieran una hora para salvar el planeta, dedicaría 59 minutos a definir el problema y un minuto a resolverlo”.

Descubriendo los secretos de liderazgo de Albert Einstein

Considera con qué frecuencia los científicos de datos necesitan “limpiar los datos” en proyectos de ciencia de datos, a menudo de la manera más rápida y económica posible.

Esto puede parecer razonable, pero ignora la pregunta crítica del “por qué”: ¿Por qué hay datos incorrectos en primer lugar? ¿De dónde vino? ¿Representa errores garrafales o hay puntos de datos legítimos que son simplemente sorprendentes? ¿Ocurrirán en el futuro?

¿Cómo afectan los datos erróneos a este proyecto en particular y al negocio? En muchos casos, encontramos que una mejor declaración del problema es encontrar y eliminar las causas raíz de los datos incorrectos.

Con demasiada frecuencia, vemos ejemplos en los que las personas asumen que entienden el problema y se apresuran a definirlo, o no construyen el consenso necesario para resolverlo realmente.

Argumentamos que una clave para el éxito de los proyectos de ciencia de datos es reconocer la importancia de definir claramente el problema y adherirse a principios probados al hacerlo.

Este problema no está relegado a los equipos de tecnología; encontramos que muchos proyectos empresariales, políticos, de gestión y de medios, en todos los niveles, también sufren de una mala definición del problema.

Hacia una mejor definición del problema

La ciencia de datos utiliza el método científico para resolver problemas a menudo complejos (o multifacéticos) y no estructurados utilizando datos y análisis.

En análisis, el término expedición de pesca se refiere a un proyecto que, para empezar, nunca se enmarcó correctamente e implica rastrear los datos en busca de correlaciones inesperadas.

Este tipo de pesca de datos no cumple con el espíritu de la ciencia de datos efectiva, pero no obstante prevalece. En consecuencia, definir el problema correctamente debe ser el primer paso.

Previamente, propusimos un “puente” organizacional entre los equipos de ciencia de datos y las unidades de negocios, para ser dirigido por un mariscal de innovación, alguien que habla el idioma de los equipos de administración y datos y puede reportar directamente al CEO.

Este alguacil sería un candidato ideal para asumir la responsabilidad general de garantizar que se utilicen los siguientes principios propuestos.

Involucre a las personas adecuadas

Para asegurarse de que el marco de su problema tenga las entradas correctas, debe involucrar a todas las personas clave cuyas contribuciones son necesarias para completar el proyecto con éxito desde el principio.

Después de todo, la ciencia de datos es un deporte de equipo interdisciplinario y transdisciplinario.

Utiliza los datos sabiamente, crea estrategias de fidelización y venta con ellos

Este equipo debe incluir a los que son “dueños” del problema, los que proporcionarán datos, los responsables de los análisis y los responsables de todos los aspectos de la implementación.

Piensa en la matriz RACI

Los responsables y los que deben ser consultados e informados, para cada aspecto del proyecto.

Reconocer que definir rigurosamente el problema es un trabajo duro. A menudo encontramos que la declaración del problema cambia a medida que las personas trabajan para concretarlo.

Los líderes de proyectos de ciencia de datos deben alentar el debate, permitir suficiente tiempo y documentar la declaración del problema en detalle a medida que avanzan. Esto asegura un amplio acuerdo sobre la declaración antes de seguir adelante.

No confundas el problema y su propuesta de solución

Considera un banco que está perdiendo participación de mercado en préstamos de consumo y cuyo equipo de liderazgo cree que los competidores están utilizando modelos más avanzados.

Sería fácil saltar a una declaración del problema que se parezca a “Construir modelos de riesgo de préstamo más sofisticados”.

Pero eso presupone que un modelo más sofisticado es la solución a la pérdida de participación de mercado, sin considerar otras opciones posibles, como aumentar el número de oficiales de crédito, brindar una mejor capacitación o combatir a los nuevos entrantes con un marketing más efectivo.

Confundir el problema y la solución propuesta casi asegura que el problema no se entienda bien, limita la creatividad y mantiene a los solucionadores de problemas potenciales en la oscuridad.

Una mejor declaración en este caso sería: “Investigar las causas fundamentales de la pérdida de participación de mercado en los préstamos al consumo y proponer soluciones viables“. Esto podría conducir a modelos más sofisticados, o podría no serlo.

Comprender la distinción entre un problema próximo y una causa raíz más profunda

En nuestro primer ejemplo, los datos no limpios son un problema inmediato, mientras que la causa raíz es lo que conduce a la creación de datos incorrectos en primer lugar.

Es importante destacar que “No sabemos lo suficiente como para articular completamente la causa raíz del problema de los datos incorrectos” es una situación legítima que exige un subproyecto a pequeña escala.

No pase de la definición del problema hasta que cumpla con los siguientes criterios:

No hace daño

Puede que no esté claro cómo resolver el problema definido, pero debe quedar claro que resolverlo conducirá a un buen resultado comercial. Si no está claro, es posible que se necesite más refinamiento. Considere el ejemplo del banco anterior.

Si bien puede ser bastante fácil ajustar los modelos de manera que otorguen más préstamos, esto podría aumentar significativamente el riesgo, un resultado inaceptable.

Entonces, el objetivo real debería ser mejorar la participación de mercado sin crear un riesgo adicional, de ahí la inclusión de “proponer soluciones viables” en la declaración del problema anterior.

Considera las restricciones necesarias

Usando el ejemplo del banco, podemos reconocer que los modelos más sofisticados pueden requerir la contratación de oficiales de crédito altamente calificados adicionales, algo que el banco podría no estar dispuesto a hacer.

Todas las restricciones, incluidas las relacionadas con el tiempo, el presupuesto, la tecnología y las personas, deben articularse claramente para evitar una declaración del problema desalineada con los objetivos comerciales.

Cuenta con una matriz de rendición de cuentas (o su equivalente)

La alineación es clave para el éxito, así que asegúrese de que los responsables de resolver el problema comprendan sus diversas funciones y responsabilidades. Una vez más, piense en la matriz RACI.

Recibe la aceptación de las partes interesadas

Las declaraciones de problemas mal definidas o controvertidas a menudo producen resistencias dentro de la organización.

Declaración anual: Paso a paso para deducir los intereses de tu crédito Infonavit

En casos extremos, pueden convertirse en “francotiradores”, intentando asegurar el fracaso del proyecto.

Trabaja para desarrollar un consenso general (no necesariamente unánime) del liderazgo, los involucrados en la solución y los clientes finales (aquellos que se verán afectados) sobre la definición del problema.

Tomarse el tiempo necesario para definir adecuadamente el problema puede resultar incómodo. Después de todo, vivimos y trabajamos en culturas que exigen resultados y están ansiosos por “seguir adelante”.

Pero acortar este paso es como poner el carro delante del caballo: simplemente no funciona.

No hay sustituto para sondear más profundamente, involucrar a las personas adecuadas y tomarse el tiempo para comprender el problema real.

Todos nosotros, científicos de datos, líderes empresariales y políticos por igual, debemos mejorar en la definición del problema correcto de la manera correcta.


SOBRE LOS AUTORES

Roger W. Hoerl (@rogerhoerl) enseña estadística en Union College en Schenectady, Nueva York. Anteriormente, dirigió el laboratorio de estadística aplicada en GE Global Research.

Diego Kuonen (@diegokuonen) es director de Statoo Consulting, con sede en Berna, Suiza, y profesor de ciencia de datos en la Escuela de Economía y Gestión de Ginebra de la Universidad de Ginebra.

Thomas C. Redman (@thedatadoc1) es presidente de la consultora Data Quality Solutions con sede en Nueva Jersey y coautor de The Real Work of Data Science: Turning Data Into Information, Better Decisions, and Stronger Organizations (Wiley, 2019).

Síguenos en Google News
Te recomendamos
Foto perfil de Roger W. Hoerl, Diego Kuonen, Thomas C. Redman
Roger W. Hoerl, Diego Kuonen, Thomas C. Redman Roger W. Hoerl (@rogerhoerl) enseña estadística en Union College en Schenectady, Nueva York. Anteriormente, dirigió el laboratorio de estadística aplicada en GE Global Research. Diego Kuonen (@diegokuonen) es director de Statoo Consulting, con sede en Berna, Suiza, y profesor de ciencia de datos en la Escuela de Economía y Gestión de Ginebra de la Universidad de Ginebra. Thomas C. Redman (@thedatadoc1) es presidente de la consultora Data Quality Solutions con sede en Nueva Jersey y coautor de The Real Work of Data Science: Turning Data Into Information, Better Decisions, and Stronger Organizations (Wiley, 2019).
Descarga GRATIS nuestro especial
descargable
Descarga AQUÍ el artículo completo Especial Foro MIT 2024. ¡Descárgalo GRATIS!
Suscríbete al Newsletter
¡SUSCRÍBETE!