Liderazgo Capital Humano Actualidad

Cómo impulsar a los usuarios para detectar errores de IA generativa

El uso de modelos de lenguaje de gran tamaño para generar texto puede ahorrar tiempo, pero a menudo da lugar a errores impredecibles. Solicitar a los usuarios que revisen los resultados puede mejorar su calidad.

Renée Richardson Gosline, Yunhao Zhang, Haiwen Li, Paul Daugherty, Arnab D. Chakraborty, Philippe Roussiere y Patrick Connolly 11 Sep 2024

El ChatGPT de OpenAI ha generado entusiasmo desde su lanzamiento en noviembre de 2022, pero también ha creado nuevos desafíos para los gerentes. La Inteligencia Artificial (IA) llegó para quedarse.

Por un lado, los líderes empresariales comprenden que no pueden pasar por alto el potencial de los modelos de lenguaje grande (LLM) de IA generativa. Por otro lado, las aprensiones en torno a cuestiones como el sesgo , la inexactitud y las violaciones de seguridad son grandes y limitan la confianza en estos modelos.

Publicidad
Publicidad

En un entorno como este, los enfoques responsables para el uso de los LLM son fundamentales para la adopción segura de la IA generativa. Se está creando un consenso sobre la necesidad de que los humanos permanezcan en el circuito. Este es un escenario en el que la supervisión e intervención humanas colocan al algoritmo en el papel de un aprendiz de aprendizaje.

Sin una comprensión adecuada de los modelos de IA y sus limitaciones, los usuarios podrían depositar demasiada confianza en el contenido. Las interfaces accesibles y fáciles de usar como ChatGPT, en particular, pueden presentar errores con confianza, pero carecer de transparencia.

En un reciente experimento, exploramos una forma de ayudar a los usuarios en esta tarea. Proporcionamos a los profesionales de investigación empresarial global de Accenture una herramienta diseñada para destacar posibles errores y omisiones en el contenido de LLM. 

Los hallazgos revelaron que agregar algo de fricción al proceso de revisión de contenido generado por LLM puede llevar a una mayor precisión.

¿Qué humanos se benefician más de la creación y del uso de la IA generativa?

Un experimento con fricción e IA generativa

La fricción tiene mala fama en el ámbito de la experiencia digital del cliente, Pero investigaciones recientes sugieren que las organizaciones deberían adoptarla en los sistemas de IA para mejorar la toma de decisiones humanas.

Nuestro experimento se propuso explorar prácticamente esta hipótesis en el campo midiendo las compensaciones entre eficiencia y precisión de agregar fricción dirigida, o baches cognitivos y procedimentales, a los resultados de LLM en forma de resaltado de errores.

Probamos si la resistencia intencional e incorporada a la aplicación ininterrumpida y automática de la IA ralentizaría el proceso del usuario y haría que los errores potenciales fueran más propensos a ser detectados.

Creíamos que esto alentaría a los participantes a participar en lo que se conoce en economía conductual como pensamiento del Sistema 2 . Un tipo de procesamiento cognitivo más consciente y deliberativo que el pensamiento del Sistema 1 más intuitivo.

El estudio, un esfuerzo colaborativo entre el MIT y Accenture, tenía como objetivo explorar la integración de un LLM en una tarea familiar. El objetivo era completar y enviar dos resúmenes ejecutivos de perfiles de empresas en un plazo de 70 horas.

Los participantes de la investigación recibieron el texto de ChatGPT, junto con las indicaciones correspondientes. Se les dijo que podían usar tanto o tan poco del contenido como quisieran.

Los participantes fueron asignados aleatoriamente a una de tres condiciones experimentales:

  • En la condición de fricción total, el contenido generado por LLM contenía tres tipos de resaltado según el mensaje que indicaba que la información probablemente era correcta, incorrecta o faltaba en el resultado
  • Con la condición de fricción media, el contenido generado por LLM contenía dos tipos de resaltado según la indicación que indicaba posibles errores y omisiones de información que debería haber estado en el resultado
  • En la condición de control sin fricción, el contenido generado por LLM no contenía ningún resaltado, según la experiencia actual del usuario de IA generativa

Los hallazgos revelaron que introducir fricción puede ayudar a los colaboradores a detectar imprecisiones y omisiones

La IA generativa ha revolucionado la creación y el escalado de la publicidad digital

Tres perspectivas conductuales

Los resultados del experimento de campo apuntan a acciones que las organizaciones pueden ayudar a los colaboradores a incorporar de manera más efectiva herramientas de IA generativa.

Asegúrate de que la redacción del mensaje sea reflexiva

Las entregas finales de los participantes fueron léxicamente muy similares al contenido generado por LLM. Esto sugiere que los participantes se anclaron en ese resultado, incluso cuando se les pidió que lo consideraran simplemente como un insumo para su propia escritura.

Esto subraya la importancia de ser reflexivo sobre el mensaje proporcionado al LLM, ya que su resultado puede marcar la trayectoria de la versión final del contenido. 

Investigaciones recientes sugieren que el anclaje puede resultar beneficioso en algunas circunstancias cuando el contenido de IA generativa se percibe como de alta calidad. Pero, dados nuestros hallazgos de alta similitud entre el texto generado por LLM y las entregas finales de los participantes humanos, también podría llevar a un usuario por el camino equivocado.

Reconoce que la confianza es una virtud, pero su exceso es un vicio

Destacar los errores atrajo la atención de los participantes y mejoró la precisión a través de la corrección de errores. Sin embargo, los participantes en las tres condiciones informaron que no hubo diferencias en la respuesta a la pregunta de seguimiento de la encuesta:

“Soy más consciente de los tipos de errores que hay que buscar al usar GenAI”.

Esto presenta una razón para ser cautelosos: los usuarios pueden sobrestimar su capacidad para identificar errores generados por IA. Una herramienta que agregue fricción al hacer que los errores potenciales sean más visibles podría ayudar a los usuarios a calibrar su confianza.

Además, los hallazgos sugieren que resaltar los errores no tuvo un impacto significativo en la confianza reportada por los participantes en la tecnología.

Experimenta, experimenta, experimenta

Antes de implementar herramientas y modelos de IA, es imperativo probar cómo interactúan los humanos con ellos y cómo afectan la precisión.

Como se indicó anteriormente, observamos una diferencia en las actitudes autoinformadas y la detección de errores reales.

Instamos a las organizaciones a adoptar experimentos como un medio para comprender cuál es la mejor manera de elevar el papel de los colaboradores en los sistemas de participación humana.


SOBRE LOS AUTORES

Renée Richardson Gosline es directora del Human-First AI Group en la Iniciativa sobre la Economía Digital del MIT. Yunhao Zhang es investigador postdoctoral en el Psychology of Technology Institute. Haiwen Li es candidata a doctorado en el MIT Institute for Data, Systems, and Society. Paul Daugherty es director de tecnología e innovación en Accenture. Arnab D. Chakraborty es el director ejecutivo sénior en Accenture. Philippe Roussiere es el responsable global en París de innovación en investigación e IA en Accenture. Patrick Connolly es el responsable global de IA/investigación generativa en Accenture Research, Dublín.