Sobreestimar las capacidades de modelos de IA como ChatGPT puede dar lugar a aplicaciones poco fiables. Estas son algunas de ellas.
Los grandes modelos lingüísticos (LLM) parecen llamados a transformar las empresas. Su capacidad para generar respuestas detalladas y creativas a consultas en lenguaje sencillo ha desatado una ola de entusiasmo que llevó a ChatGPT a alcanzar los 100 millones de usuarios.
Posteriormente, los inversionistas brindaron más de 40 mil millones de dólares en startups de Inteligencia Artificial (IA) en el primer semestre de 2023.
Pero aunque los LLM son increíblemente potentes, su capacidad para generar textos similares a los humanos puede invitarnos a atribuirles otras capacidades humanas.
Esto lleva a aplicaciones erróneas de la tecnología. Con un conocimiento más profundo de cómo funcionan los LLM y de sus limitaciones fundamentales.
Los directivos pueden tomar decisiones más informadas sobre cómo se utilizan los LLM en sus organizaciones. Pueden también abordar sus deficiencias con una mezcla de tecnologías complementarias y gobernanza humana.
Un LLM es fundamentalmente un modelo de aprendizaje automático diseñado para predecir el siguiente elemento de una secuencia de palabras. Los modelos lingüísticos anteriores funcionaban de forma secuencial, basándose en una distribución de probabilidad de las palabras de sus datos de entrenamiento.
Sin embargo, estos modelos carecen de la capacidad de considerar el contexto más amplio en el que aparece una palabra y sus significados y asociaciones.
La llegada de la última arquitectura de redes neuronales supuso una importante evolución hacia los LLM modernos. Los transformadores permiten a las redes neuronales procesar grandes volúmenes de texto para establecer relaciones más sólidas entre las palabras y el contexto.
El entrenamiento de estos transformadores ha dado lugar a un salto de sofisticación que permite a los LLM generar respuestas similares a las humanas.
Esta capacidad de los LLM depende de varios factores críticos como:
Cada parámetro de un modelo encierra cierta información sobre una relación extrapolada de los datos de entrenamiento. Por lo que un modelo con un mayor número de parámetros tiende a tener más conocimientos y matices. El GPT-3 de OpenAI, por ejemplo, tiene 175 mil millones de parámetros.
El volumen de los datos de entrenamiento también influye significativamente en la capacidad de generalización del modelo. Ya que los conjuntos de datos más grandes ofrecen representaciones más diversas de relaciones y hechos semánticos.
El tamaño de la indicación que puede aceptar el modelo también influye en su precisión. Cuanto más detallado sea el contexto, más precisa será la predicción del modelo.
En respuesta a una pregunta, el LLM se basa en las relaciones establecidas por su entrenamiento para generar una continuación del texto, token por token.
En cada paso se pronostican las probabilidades del siguiente token en función del contexto, y el algoritmo selecciona el token en función de esas probabilidades. El grado de aleatoriedad de la selección depende de la temperatura del modelo.
Las temperaturas más altas producen selecciones más “creativas” o improbables. mientras que las temperaturas más bajas producen respuestas más predecibles.
Para mejorar la precisión de las respuestas de un LLM a peticiones específicas y limitar su capacidad de producir respuestas inapropiadas, irrelevantes o tóxicas. Los modelos preentrenados pueden ajustarse mediante técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana, o RLHF, que se ha empleado para ajustar modelos como ChatGPT.
A partir de esta comprensión de cómo funcionan los LLM, podemos examinar las falsas impresiones que pueden crear al aplicar nuestra intuición humana a resultados aparentemente humanos.
Pregunta: Según el informe del sindicato de productores de coles de 2007, el 80 por ciento de las coles recogidas eran pesadas (más de 0,5 kg). El 10 por ciento eran verdes, el 60 por ciento rojas y el 50 por ciento grandes (con un diámetro superior a 10 cm). ¿Cuál de las siguientes afirmaciones debe ser falsa?
Respuesta LLM: La afirmación que debe ser falsa es la 4. La mitad de las coles eran pequeñas.
La respuesta correcta sería que la afirmación 1 es falsa: al menos algunas coles rojas debían ser grandes.
Contrariamente a la impresión que puedan dar, los LLM no están hechos para el razonamiento complejo. Por ejemplo, los estudios han descubierto que GPT-4, el LLM más avanzado de OpenAI, sólo podía verificar correctamente que un número era primo en el 2.4 por ciento de los casos.
Otras investigaciones han demostrado que los LLM no comprenden las relaciones entre las palabras del conjunto de datos de entrenamiento. Por ejemplo, GPT-4 puede responder correctamente a la pregunta “¿Quién es la madre de Tom Cruise?” Mary Lee Pfeiffer.
Pero no puede inferir la respuesta a “¿Quién es el hijo de Mary Lee Pfeiffer?“, y el modelo responde correctamente a preguntas como la primera el 79 por ciento de las veces, frente al 33 por ciento de la segunda.
Esencialmente, los LLM sólo aprenden a simular verbalmente reglas lógicas elementales, pero no poseen la capacidad de encadenarlas para producir y verificar conclusiones complejas.
Además, los LLM son propensos a acumular errores en el razonamiento lógico multipas. Esto es porque la naturaleza fundamentalmente probabilística del modelo implica que cada paso tiene una probabilidad de error distinta de cero.
Por último, los LLM no siempre pueden esbozar la “cadena de pensamiento” que ha llevado a una conclusión. Lo que dificulta a los humanos determinar si se ha producido un error o dónde.
Un reciente experimento de campo realizado con más de 750 consultores del Boston Consulting Group puso de manifiesto las implicaciones de esta limitación en la vida real.
Los participantes que utilizaron GPT-4 para resolver un problema empresarial sencillo se equivocaron un 23 por ciento más que el grupo de control que no tenía acceso a un LLM. La razón fue que GPT-4 no sólo se equivocaba a menudo, sino que proporcionaba una justificación persuasiva.
Pedimos a un LLM que nos proporcionara cinco artículos en revistas académicas revisadas por pares sobre la viabilidad de la fusión nuclear. La herramienta devolvió cinco resultados. Dos eran artículos de noticias, no documentos revisados por pares, y uno era un documento que no existe.
Los conocimientos de un LLM vienen dictados por sus datos de entrenamiento. Si los datos carecen de un conocimiento específico del dominio el LLM puede fallar a la hora de mostrar el conocimiento relevante en respuesta a una consulta.
Del mismo modo, podrían reproducir errores presentes en los datos de entrenamiento. Por último, los modelos podrían crear errores al “alucinar” afirmaciones que no estaban en los datos de entrenamiento.
Los investigadores que encargaron a ChatGPT la generación de planes de tratamiento para diversos casos de cáncer descubrieron que un tercio de las respuestas de los LLM contenían información incorrecta.
En otro ejemplo muy sonado, dos abogados y su bufete fueron multados tras presentar citas falsas generadas por ChatGPT en un expediente judicial. El LLM había alucinado con seis casos jurídicos, incluidas opiniones y citas judiciales.
Por último, las limitaciones de conocimientos también pueden dar lugar a una falta de coherencia. los LLM responden a la misma pregunta en distintos momentos de forma contradictoria.
Por ejemplo, unos educadores de Iowa utilizaron ChatGPT para determinar la idoneidad de los libros de la biblioteca de su colegio para cumplir una nueva ley estatal. Proporcionaron al LLM una lista de todos los libros de la biblioteca y le pidieron que señalara aquellos cuyo contenido infringía la ley.
Esto hizo que se retiraran 19 títulos de la biblioteca. Sin embargo, cuando más tarde los periodistas preguntaron a ChatGPT sobre esos 19 títulos, sugirió que sólo cuatro de ellos contenían contenidos contrarios a la ley.
Pregunta: Hay una manzana dentro de una caja azul. También hay una caja roja dentro de la caja azul. La caja roja tiene una tapa. ¿Cómo puedo coger la manzana?
Respuesta LLM: Para recuperar la manzana de las cajas, puedes seguir estos pasos:
ChatGPT no ha entendido que la manzana no está dentro de la caja roja.
Es posible que un LLM no “entienda” lo que se le pide. Al carecer del contexto adecuado, puede fallar y sus resultados pueden ser inconexos o incoherentes.
Los investigadores analizaron las respuestas de ChatGPT a más de 500 preguntas enviadas por humanos en el foro en línea de ingeniería de software Stack Overflow.
Descubrieron que el 52 por ciento de las respuestas del modelo eran inexactas. Además, que más de la mitad de esos errores se debían a que ChatGPT no entendía el concepto o los detalles de la pregunta, o se centraba en la parte equivocada del problema.
Esto significa que un LLM podría no ser útil cuando los usuarios carecen de conocimientos suficientes sobre un problema como para proporcionar buenas instrucciones.
Los LLM pueden ofrecer una guía clara paso a paso para una tarea solicitada, creando la impresión de que el modelo puede planificar soluciones prácticas.
Pero dada la limitada capacidad de razonamiento de los LLM y su limitada comprensión de las tareas, las acciones sugeridas pueden ser poco prácticas o ingenuas.
Por ejemplo, cuando se le pidió que creara un plan de ahorro para comprar una casa, ChatGPT proporcionó algunos consejos financieros sólidos. Pero no tuvo en cuenta los posibles cambios en los ingresos o en los tipos de interés.
Además, no tiene en cuenta la falibilidad humana. Ni cuestiona el realismo de los objetivos ni la creencia del usuario de ser consciente de sus hábitos exactos de gasto.
Para las empresas, todas estas limitaciones pueden minar la fiabilidad. No se puede estar seguro de que la información proporcionada por un LLM sea completa, relevante, factible o verdadera.
Dadas estas limitaciones, no se puede contar con los LLM para tomar decisiones críticas o ejecutar planes de forma autónoma. Sin embargo, delegar tareas mundanas puede seguir pareciendo atractivo.
Por ejemplo, las que implican interacciones programáticas con servicios de TI existentes, como la navegación web y el scraping, o la monitorización y mensajería en redes sociales.
De hecho, Auto-GPT, una aplicación de código abierto basada en GPT-4, ha permitido a los entusiastas crear una serie de impresionantes demostraciones de automatización. Como la investigación de productos, la codificación de páginas web o aplicaciones, e incluso el pedido de pizza.
Sin embargo, Jim Fan, investigador en Inteligencia Artificial, ha sugerido que las demostraciones de funcionamiento están “muy seleccionadas“. Ya que los estudios sobre agentes autónomos indican que, en entornos realistas, sólo consiguen tasas de éxito de alrededor del 10 por ciento.
En lugar de limitarse a restringir las aplicaciones de los LLM a casos rutinarios, las empresas deben diseñar todas sus implementaciones teniendo en cuenta las limitaciones.
Mantener a los humanos en el bucle es fundamental a medida que las empresas integran los LLM en sus operaciones. Esto debería incluir la validación de los resultados generados por la IA para aumentar la confianza depositada en la tecnología.
También podría ampliarse para que los expertos traduzcan los problemas empresariales en instrucciones para la IA. Además, garantizar que la información proporcionada por el modelo es adecuada adaptando apropiadamente el contexto y los matices que se le introducen.
Más allá de pensar en cómo crear el sistema óptimo de humanos e IA, las empresas también deberían explorar tecnologías complementarias. Estas podrían abordar las limitaciones de los LLM. En este espacio en rápida evolución, se producen constantemente nuevas innovaciones que prometen mejorar las capacidades de la tecnología.
Por ejemplo, para mejorar las capacidades de razonamiento, los investigadores están estudiando la posibilidad de aumentar los LLM con motores de razonamiento. Estos podrán codificar la información específica del dominio en grafos de conocimiento que representen las relaciones entre conceptos y hechos especializados.
Los investigadores también están entrenando modelos especializados para evaluar la coherencia lógica entre las premisas de la petición y el resultado del LLM.
Para aumentar el conocimiento y la experiencia, los LLM se están entrenando en bases de datos específicas del dominio, como el modelo Med-PaLM de Google y DeepMind, que ha demostrado superar significativamente a los LLM de propósito general en el examen de licencia médica de Estados Unidos.
La fiabilidad de los LLM también podría mejorarse mediante el aprendizaje por refuerzo con los comentarios recogidos de expertos humanos. Los LLM también pueden mejorar su comprensión de las preguntas iniciales de un usuario si se programan para hacer preguntas aclaratorias antes de dar una respuesta.
La promesa de la aplicabilidad casi universal de los LLM hace que las empresas estén dispuestas a explorar esta nueva y potente tecnología.
Sin embargo, la capacidad de estos modelos para generar resultados textuales similares a los humanos puede llevarnos fácilmente a atribuirles capacidades que no poseen. Una comprensión adecuada de sus limitaciones debe guiar la forma y el contexto en que se aplican.
Las empresas deben ser especialmente cautelosas en los ámbitos en los que interviene el razonamiento lógico, los hechos son importantes, la replicabilidad es crucial o hay mucho en juego.
En estas situaciones, las empresas deben explorar el uso de tecnologías complementarias que aborden las limitaciones de los LLM y asegurarse de que haya una aportación.
Mikhail Burtsev, Doctor en Filosofía, es Landau AI fellow en el London Institute for Mathematical Sciences, ex director científico del Artificial Intelligence Research Institute y autor de más de 100 artículos en el campo de la IA. Martin Reeves es presidente del BCG Henderson Institute, dedicado a la estrategia empresarial. Adam Job, doctor, es director del Strategy Lab del BCG Henderson Institute.