Construir sistemas de IA responsables empieza por reconocer que las soluciones tecnológicas priorizan implícitamente la eficiencia.
El interés por las posibilidades que ofrecen los algoritmos y los macrodatos sigue floreciendo a medida que los primeros usuarios obtienen beneficios de los sistemas de IA. Ya que automatizan decisiones tan variadas como hacer recomendaciones a los clientes, filtrar a los solicitantes de empleo, detectar el fraude y optimizar las rutas logísticas.1 Pero cuando las aplicaciones de IA fallan, pueden hacerlo de forma bastante espectacular.2
Consideremos el reciente ejemplo del escándalo de la “robodeuda” en Australia.3 En 2015, el gobierno australiano estableció su Programa de Cumplimiento de Ingresos, con el objetivo de recuperar las prestaciones por desempleo e incapacidad que se habían abonado indebidamente.
Inteligencia Artificial: la diferencia entre lo que debe y puede hacer
Se propuso identificar los pagos excesivos analizando las discrepancias entre los ingresos anuales declarados por las personas y los ingresos evaluados por la Agencia Tributaria australiana.
Anteriormente, el departamento había utilizado una técnica de cotejo de datos para identificar si los empleados del gobierno investigaban para determinar si las personas habían recibido prestaciones sin merecerlas. Con el objetivo de ampliar este proceso para aumentar los reembolsos y reducir costes, el gobierno desarrolló un nuevo sistema automatizado que presumía que cada discrepancia reflejaba un pago excesivo.
En todos los casos se enviaba una carta de notificación exigiendo el reembolso, y la carga de la prueba recaía en las personas que deseaban recurrir. Si alguien no respondía a la carta, su caso se remitía automáticamente a un cobrador externo. En 2019, se estimaba que el programa había identificado más de 734 mil sobrepagos por un valor total de 2mil millones de dólares australianos.4
El nuevo sistema se diseñó para optimizar la eficiencia, pero sin prestar atención a las particularidades de cada caso.
La idea era que, al eliminar el juicio humano, moldeado por prejuicios y valores personales, el programa automatizado tomaría decisiones mejores, más justas y racionales a un coste mucho menor. Desgraciadamente, las decisiones tomadas por los diseñadores del sistema dieron lugar a que el gobierno exigiera el reembolso a cientos de miles de personas. Algunos se vieron obligados a demostrar que no habían solicitado ilegítimamente prestaciones siete años antes. Las consecuencias para muchas personas fueron nefastas.
Las revisiones parlamentarias posteriores señalaron “una falta fundamental de equidad procesal” y calificaron el programa de “increíblemente desempoderador para las personas”.5
El comité parlamentario recibió pruebas de al menos dos suicidios relacionados con el programa, y hubo numerosos informes de dificultades financieras.6 En 2020, el ministro de servicios gubernamentales del país eliminó el programa y anunció que 470 mil deudas emitidas erróneamente serían reembolsadas en su totalidad.
En este artículo explicaremos los sesgos inconsiderados, implícitos y sistémicos que pueden provocar fallos tan catastróficos.
Es crucial que los directivos comprendan que la solución a estos fallos tecnológicos no es una tecnología mejor o más avanzada, sino una mejor comprensión de las decisiones implícitas que tomamos. Inspirándonos en el libro de 1954 del filósofo francés Jacques Ellul La sociedad tecnológica, nuestra propia investigación trata de desentrañar el mecanismo en juego.7
En su libro, Ellul sostiene que la característica central de las organizaciones modernas es el uso de la técnica, definida en este caso como la búsqueda racional de cualquier medio para alcanzar los resultados deseados.
La técnica está, por tanto, integrada en la tecnología y entra en juego cuando, por ejemplo, las organizaciones piensan en formas de maximizar el rendimiento de una planta de fabricación. Cuando aplicamos la técnica, aceptamos tácitamente que todo debe medirse, cuantificarse, normalizarse y racionalizarse para que esté listo para el cálculo. La técnica, por tanto, es también una forma de imaginar cómo debería ser el mundo idealmente.
Basándonos en el pensamiento de Ellul, sugerimos que esto induce un proceso que describimos como la mecanización de los valores. La técnica refuerza la racionalidad como modo preferido de conducta y prioriza la eficiencia como resultado preferido. Esto, a su vez, refuerza la influencia de la técnica en nuestras vidas; muchas de nuestras acciones se centran en la resolución racional de problemas con el fin de lograr más eficiencia.
La amistad, la cohesión social, la justicia, la compasión y la felicidad (por nombrar sólo algunos fenómenos profundamente humanos) no encajan en el modelo de la IA. Su esencia cualitativa no puede ser captada plenamente por la técnica.8
En su lugar, la técnica lo encasilla todo en una camisa de fuerza cuantificable.
Iluminar el futuro con la lámpara de la creatividad: Blackbot
Consideremos el ejemplo de la amistad: En las redes sociales, que aplican la técnica a la gestión de las relaciones humanas, un amigo es alguien con quien conectas.
La intensidad de la amistad se mide en acciones cuantificables como “me gusta” o “seguir”. Sin embargo, este enfoque despoja de su riqueza a un fenómeno humano complejo. Perdemos el matiz de los distintos valores y dinámicas, como los diferentes tipos de amigos (confidentes íntimos, compañeros de gimnasio) y las distintas fases de la amistad.
El “valor” de la amistad se reduce ahora a lo que puede cuantificarse o automatizarse, como el número de “me gusta” en una foto. Perdemos el significado compartido de las fotos, la sinceridad de las felicitaciones de cumpleaños y muchos de los aspectos más enriquecedores de la amistad.
En otras palabras, cuando aplicamos la técnica de la IA a un proceso, especialmente en forma de sistemas automatizados de toma de decisiones, limitamos implícitamente la consideración de todo el espectro de valores humanos. Esto tiene importantes ramificaciones prácticas, porque los valores se refieren a los comportamientos y objetivos que son personal y socialmente preferibles, y suelen ser múltiples, complejos y a veces contradictorios.9
Las organizaciones operan a menudo en la confluencia de múltiples valores. Por ejemplo, el programa de cumplimiento australiano se basaba en la premisa de la técnica: Suprimía necesariamente otros valores. Eso incluía la compasión hacia los ciudadanos, la equidad y el trato respetuoso a las personas.
Pero cuando los algoritmos tomaron el control en procesos previamente impregnados de múltiples valores, estos valores múltiples acaban subordinándose a los valores últimos de racionalidad y eficiencia. Los objetivos del modelo de IA de robodeuda racional (ahorrar costes administrativos y aumentar los reembolsos) también impulsaron la decisión de eliminar a los colaboradores humanos.
En resumen, siempre que aplicamos la técnica para resolver un problema, corremos el riesgo de crear involuntariamente un efecto secundario devastador. Y este es que la racionalidad como conducta preferida y la eficacia como fin preferido se imponen a todos los demás valores, convirtiéndose en valores últimos en sí mismos.
Esto es obviamente problemático, y puede llegar a serlo peligrosamente cuando los humanos ya no puedan anular los sistemas automatizados y las consecuencias de sus decisiones.
¿Cómo pueden los directivos y las organizaciones que necesitan o quieren aprovechar estas tecnologías proteger múltiples valores en sus decisiones y rutinas para evitar la tiranía de la IA?
Aquí proponemos que la adhesión a tres principios puede ayudar:
A continuación examinaremos más detenidamente cada uno de estos principios.
Cuando se construyen modelos algorítmicos, a menudo es necesario representar un fenómeno con un proxy. Por ejemplo, en el caso de robodebt, la IA utilizó la “renta media” como sustituto de la renta real.
La renta media era una opción cómoda: era fácil de calcular y, a primera vista, parecía una aproximación razonable. Sin embargo, las revisiones a posteriori descubrieron que tenía varios puntos débiles. Por ejemplo, la renta media se calculó sobre una base anual, pero los ingresos reales percibidos por los individuos se producen a lo largo de periodos de pago.
El cálculo aproximado de la renta media, al extenderse a lo largo de un año, no reflejaba el llamado empleo irregular, en el que las personas entran y salen del trabajo y reciben prestaciones durante el desempleo.
Utilizar la métrica de la renta media hacía parecer que se obtenían ingresos cuando las personas estaban realmente sin trabajo. Además, el promedio de ingresos no producía realmente una prueba legal de deuda. La técnica y su afán por crear medidas racionales sedujeron a los funcionarios responsables a proceder con una medida defectuosa.
Con este ejemplo, podemos ver cómo los proxies pueden reducir fácilmente un fenómeno a una dimensión medible que se supone constante cuando en realidad es variable.
El uso de proxies también puede implicar tratar fenómenos conceptualmente distintos como predictores equivalentes (como una mala calificación crediticia como predictor de un mal rendimiento laboral).
El arte, la ley y la inteligencia artificial
En segundo lugar, debemos ser conscientes de los peligros de los efectos de escala. Si bien el uso de un algoritmo concreto es eficiente, es casi imposible frenarlo una vez que se ha generalizado en un sector. Consideremos el ejemplo de un sistema de calificación crediticia que se convierte en una norma de facto que todas las empresas utilizan.
Si el algoritmo discrimina efectivamente a las personas con determinados perfiles, no hay forma de escapar a su alcance eligiendo hacer negocios con una empresa que pueda tener un sistema de puntuación más justo o más flexible.
Del mismo modo, las clasificaciones universitarias popularizadas y promovidas por U.S. News & World Report pueden incitar a las organizaciones implicadas a aspirar a los mismos objetivos. Esto von el objetivo de ascender en la clasificación y evitar ser degradadas.
Estos efectos de escala suelen tener efectos de retroalimentación perniciosos, de modo que una universidad mal clasificada tendrá cada vez más dificultades para atraer a personal y estudiantes de calidad. Lo que a su vez hará aún más probable una mala clasificación en el futuro.10
Cabe destacar que, en los casos en los que ya se utilizan mucho los indicadores sustitutivos, los efectos de escala pueden amplificar la divergencia entre lo que creemos que medimos y lo que se mide. Para limitar el riesgo de especificaciones erróneas en un modelo, deben comprenderse adecuadamente los problemas potenciales de la utilización de indicadores indirectos. Pero los efectos de escala son muy difíciles.
Otra salvaguarda consiste en insertar estratégicamente intervenciones humanas en la toma de decisiones de los algoritmos de la IA. Por ejemplo, en el proceso original que existía antes de que el Programa de Cumplimiento de la Renta implantara el sistema robodeuda, los funcionarios de Hacienda utilizaban los ingresos medios para identificar las discrepancias. Pero luego los humanos investigaban los 20mil casos más extremos.
Los funcionarios podían equilibrar los valores contradictorios derivados del deseo del gobierno de recuperar eficazmente los pagos excesivos de prestaciones con el trato justo a los ciudadanos. Los funcionarios revisaron manualmente los datos y luego intentaron validar la medida mediante información de otras fuentes antes de notificar a los particulares las deudas que debían devolver.
La aplicación de la técnica en el caso robodebt eliminó estas intervenciones humanas y permitió que la técnica y la mecanización de los valores quedaran sin control. La carga de la prueba se desplazó del funcionario de Hacienda, que tenía que justificar el acercamiento al beneficiario, al individuo, que tenía que refutar una acusación automatizada. Sin un juicio humano en los puntos clave, no había forma de mantener a raya las consecuencias imprevistas y no deseadas.
Aunque hemos visto que las soluciones tecnológicas dan prioridad a la racionalidad, las organizaciones pueden crear procesos para evaluar los resultados de estos sistemas para ver si apoyan otros valores.
En el caso de robodebt, el diseño del programa dio prioridad al ahorro de costes y al aumento de los reembolsos. Pero la incorporación de un proceso de evaluación más exhaustivo podría haber mitigado la tiranía de la técnica. Auditar el modelo y muestras aleatorias de sus resultados podría haber revelado sus malas decisiones. El sistema, ahora desaparecido, se basaba en un enfoque único y permitía grandes diferencias entre los casos individuales y los modelos.
Una forma de lograr una mayor equidad habría sido colmar esas lagunas. En la práctica, esto habría exigido un modelo más complejo que tuviera en cuenta las diferentes circunstancias personales de los individuos. Esto hubiera garantizado al mismo tiempo que no discriminara a determinadas clases demográficas o socioeconómicas de las personas.
Un enfoque de este tipo implica un desarrollo y unas pruebas diligentes del programa antes de implantarlo en la vida real. A menudo, estas pruebas se reducen a asegurarse de que un programa funciona sin problemas, por lo que no se investigan sus resultados. Por lo tanto, cualquier programa basado en rutinas algorítmicas debe probarse en múltiples ciclos que emulen las circunstancias de la vida real en las que se aplicará el programa.
Por ejemplo, la realización de una prueba piloto antes de implantar plenamente los algoritmos habría ayudado a identificar apoderados perjudiciales. Hacer que los funcionarios comprobaran periódicamente un porcentaje de las demandas de devolución automatizadas habría ayudado a detectar fallos en el sistema y el proceso del gobierno australiano. Probar los programas antes de implantarlos puede significar que algunos sistemas nunca se implanten simplemente porque el riesgo sería muy grande.
Por último, cuando se aplican estos procesos automatizados, deben existir políticas y procedimientos que permitan a los afectados expresar sus preocupaciones, y ser escuchados por seres humanos. Esto permitiría detectar consecuencias imprevistas, fallos potenciales y sesgos, y corregirlos mediante la intervención humana.
Obviamente, este tipo de pruebas y adaptaciones implican una mayor sensibilidad por la equidad procesal. Un valor que hay que tener en cuenta junto con el deseo de ahorrar eficiencia si nos tomamos en serio la lucha contra la tiranía de la técnica.
¡Mi jefe es un robot! Empresa nombra a Inteligencia Artificial como su CEO
Nuestro análisis subraya la necesidad de una mayor sensibilidad sobre cómo la técnica y la mecanización de los valores influyen significativamente en la aplicación de la tecnología.
Cuando surgen casos de tecnología que sale mal, los directivos deberían resistirse al impulso de buscar más soluciones tecnológicas y, en su lugar, cuestionar habitualmente los valores que tienen en cuenta en sus procesos. La tendencia a buscar la solución tecnológica también se observó en el caso de robodebt, como reflejan las tres iteraciones de la herramienta, ninguna de las cuales abordaba los graves problemas subyacentes del sistema y los procesos generales.
¿Habrían evitado el escándalo de robodebt las salvaguardias que hemos propuesto y una apreciación renovada de los distintos valores que informan la toma de decisiones humanas?
Creemos que muy probablemente sí, porque reconocer y apreciar múltiples valores, en lugar de sólo los valores de racionalidad y eficiencia, habría supuesto una aplicación diferente de las normas y reglamentos.
Teniendo esto en cuenta, esperamos que los directivos en activo estén dispuestos a interrogarse de forma más crítica sobre los valores que emplean para tomar decisiones de gestión. Al tiempo que desarrollan una mayor sensibilidad respecto a las posibles consecuencias de sus elecciones.
Dirk Lindebaum es catedrático de Organización y Gestión en la Grenoble Ecole de Management. Vern Glaser es profesor asociado de iniciativa empresarial y empresa familiar y Eric Geddes Professor of Business en el Departamento de Estrategia, Iniciativa Empresarial y Gestión de la Universidad de Alberta. Christine Moser es profesora asociada de Teoría de la Organización en la Universidad Libre de Ámsterdam. Mehreen Ashraf es estudiante de doctorado en la Cardiff Business School.
1. T.H. Davenport y R. Bean, “Becoming an ‘AI Powerhouse’ Means Going All In“, MIT Sloan Management Review, 15 de junio de 2022, https://sloanreview.mit.edu.
2. C. O’Neil, “Weapons of Math Destruction: Cómo el Big Data aumenta la desigualdad y amenaza la democracia” (Nueva York: Crown Publishers, 2016).
3. “Rendición de cuentas y justicia: Why We Need a Royal Commission Into Robodebt“, archivo PDF (Canberra, Australia: Senate Community Affairs Reference Committee, mayo de 2022), https://parlinfo.aph.gov.au.
4. “Centrelink’s Compliance Program: Second Interim Report“, archivo PDF (Canberra, Australia: Senate Community Affairs Reference Committee, septiembre de 2020), cap. I. 1, https://parlinfo.aph.gov.au.
5. “Programa de cumplimiento de Centrelink”, cap. 2.
6. Ibid.
7. D. Lindebaum, C. Moser, M. Ashraf y otros, “Reading ‘The Technological Society’ to Understand the Mechanization of Values and Its Ontological Consequences“, Academy of Management Review, julio de 2022, https://journals.aom.org.
8. O’Neil, “Armas de destrucción matemática”.
9. M. Rokeach, “The Role of Values in Public Opinion Research,” Public Opinion Quarterly 32, no. 4 (invierno de 1968-1969): 550.
10. O’Neil, “Armas de destrucción matemática”.