Utiliza el código abierto para realizar experimentos de IA generativa más seguros
Los servicios comerciales de IA pueden poner en peligro los datos protegidos, pero hay alternativas más seguras que se pueden utilizar hoy en día.
La integración de la Inteligencia Artificial (IA) en el flujo de trabajo diario de los colaboradores de todas las organizaciones promete aumentar la productividad.
Sin embargo, las empresas están preocupadas, y con razón, por los riesgos de compartir datos con servicios de IA de terceros. Un ejemplo es el sonado caso de un empleado de Samsung que expuso información confidencial de la empresa al subirla a ChatGPT.
Estas preocupaciones se repiten en los primeros tiempos de la computación en nube, cuando a los usuarios les preocupaba la propiedad de los datos.
Ahora, los directivos utilizan con confianza servicios maduros de computación en nube que cumplen una letanía de requisitos normativos y empresariales relativos a la seguridad, privacidad y propiedad de sus datos.
Los servicios de IA, en particular la IA generativa, están mucho menos maduros en este sentido. En parte porque aún es pronto, pero también porque estos sistemas tienen un apetito casi inagotable de datos de entrenamiento.
Marketing con IA generativa: Ayelet Israeli de Harvard Business School
Los datos que utiliza la IA le pertenecen a alguien
Los grandes modelos lingüísticos (LLM) como ChatGPT de OpenAI se han entrenado con un enorme contenido escrito al que se accede a través de Internet. Esto sin tener en cuenta la propiedad de esos datos.
La empresa se enfrenta ahora a una demanda de un grupo de autores de bestsellers. Entre ellos George R.R. Martin, por haber utilizado sus obras protegidas por derechos de autor sin permiso, lo que ha permitido al LLM generar imitadores.
Para proteger sus datos, los medios de comunicación tradicionales han entablado conversaciones sobre licencias con desarrolladores de IA. sin embargo, las negociaciones entre OpenAI y The New York Times fracasaron en verano.
Sin embargo, una preocupación más inmediata para las empresas que experimentan con la IA generativa es cómo explorar con seguridad nuevos casos de uso para los LLM que se basan en datos internos, dado que cualquier cosa que se cargue en los servicios comerciales de LLM podría capturarse como datos de entrenamiento.
¿Cómo pueden los directivos proteger mejor sus propios activos de datos patentados y también mejorar la administración de datos en su práctica corporativa?
La solución del código abierto
Una solución obvia a los problemas de propiedad de los datos es crear las propias soluciones de IA generativa a nivel local en lugar de enviar los datos a terceros. Pero, ¿cómo puede ser esto práctico, teniendo en cuenta que Microsoft gastó cientos de millones de dólares sólo en construir la infraestructura de hardware para que OpenAI entrenara a ChatGPT, por no hablar de los costes de desarrollo reales?
Sin duda, no todos podemos permitirnos construir estos modelos fundacionales desde cero.
La experimentación segura con IA generativa es cada vez más posible gracias al movimiento de IA de código abierto que recuerda el entusiasmo sobre Linux en 1990.
Por aquel entonces, el desarrollo de un sistema operativo libre cuyo código fuente podía leer y editar cualquiera dio lugar a una comunidad internacional de desarrolladores que se basaron en el trabajo de los demás para desarrollar un conjunto maduro de herramientas de software que hoy en día hacen funcionar gran parte de internet.
Ese “momento Linux” para la IA ya ha llegado. Modelos de código abierto como Bloom, Vicuna, entre otros, proporcionan modelos básicos que pueden ajustarse a tareas específicas.
La investigación sobre rutinas de entrenamiento altamente optimizadas (como LoRA y BitFit) ha descubierto que pueden ajustarse utilizando hardware básico. Esto ha dado lugar a un floreciente ecosistema de modelos que se acercan al rendimiento de ChatGPT.
Un memorando filtrado en el que un investigador de Google se lamenta de que “no tenemos foso” revela que algunos consideran que esta explosión de innovación de código abierto amenaza el control de los gigantes tecnológicos sobre los LLM.
Aun así, para aprovechar el rápido desarrollo de estas herramientas emergentes de código abierto de forma segura y responsable se necesitarán nuevas inversiones.
Commerce GPT, la nueva herramienta de IA generativa que mejorará tus ventas
Gestión de los riesgos de la IA de código abierto
Aunque las soluciones de IA controladas localmente mantienen a raya los datos de propiedad, los gestores deben tomar una serie de medidas para garantizar su uso seguro.
Navegar por las licencias de modelos y datos
El término “código abierto” es, en muchos casos, engañoso. Mientras que algunos modelos permiten usos comerciales, otros están restringidos al uso académico o sin ánimo de lucro.
A veces, el código fuente se libera junto con el modelo; otras veces, sólo se libera uno u otro. Los tipos de licencias creados recientemente restringen casos de uso específicos considerados perjudiciales o irresponsables. Por ejemplo, Bloom y Stable Diffusion se liberan bajo licencias de IA responsable.
Esto podría impedir legalmente su uso en determinadas aplicaciones de justicia penal y sanidad. También hay que tener en cuenta los tipos de datos con los que se ha entrenado el modelo. Aunque la inclusión de material protegido por derechos de autor en conjuntos de datos para el entrenamiento de modelos de IA podría considerarse uso legítimo en algunos casos en Estados Unidos, la jurisprudencia dista mucho de estar consolidada.
Contar con una contabilidad exhaustiva de los datos introducidos en cada modelo ayudará a las organizaciones a sortear mejor estas cuestiones. Esfuerzos emergentes como el Proyecto de Nutrición de Datos están añadiendo más estructura y requisitos de información a los conjuntos de datos para ayudar a los usuarios a comprender mejor sus contenidos y riesgos.
Evitar la fuga de datos
Incluso sin enviar datos a servicios de IA de terceros, las organizaciones corren el riesgo de filtrar sus propios datos a través de interfaces de usuario abiertas, como los chatbots.
Un caso de uso emergente permite que los LLM sirvan de interfaz conversacional a una base de datos, lo que puede ser una forma eficaz de permitir a los clientes encontrar rápidamente respuestas a preguntas comunes personalizadas según sus propios datos.
Sin embargo, evitar que el LLM revele información privada sobre otros clientes o datos propiedad de la empresa puede resultar complicado. Una investigación de Pew muestra que estos agentes conversacionales preocupan a muchos usuarios, especialmente en torno a temas delicados como la atención sanitaria.
La salvaguarda de los datos se complica aún más con los ataques de inyección puntual. En los que usuarios malintencionados intentan engañar al agente para que revele información que se le indicó explícitamente que no revelara. En un entorno adverso, el mismo aspecto de los sistemas de IA que les permite ser creativos y flexibles también se convierte en una amenaza para la seguridad.
Adaptarse a datos cambiantes
Otra complicación de alojar modelos in situ es asegurarse de que utilizan los datos más recientes. Mientras que la versión inicial de ChatGPT (GPT-3) no podía responder a preguntas sobre acontecimientos ocurridos después de 2021.
Los modelos más recientes pueden combinar datos actuales con modelos preentrenados en datos históricos.
Las empresas deben encontrar un equilibrio entre la actualización del sistema con nueva información y el mantenimiento de la estabilidad y la coherencia de la experiencia del usuario.
Mitigar los sesgos sistémicos
Los sistemas de IA pueden perpetuar y amplificar fácilmente las desigualdades sociales y económicas codificadas en los datos de entrenamiento.
Es bien sabido que los sistemas de IA son propensos a crear estereotipos basados en el género, la raza y la etnia, como asumir que las enfermeras son mujeres y los médicos, hombres.
Aunque se ha investigado mucho sobre cómo reducir este tipo de comportamiento, al final este problema no se resolverá únicamente con soluciones tecnológicas. Las organizaciones deben auditar continuamente los sistemas de IA, midiendo su rendimiento y resultados para garantizar que las distintas subpoblaciones reciben un trato equitativo.
IA generativa: 3 cambios de paradigmas que plantea y que puedes aplicar en tu negocio
Generar confianza entre los clientes
Las empresas deben anticiparse al aumento de la sensibilidad sobre el uso de los datos personales y ser transparentes con los clientes.
Esto es especialmente importante cuando se trata de datos que se perciben como extremadamente personales, como los datos de audio, vídeo y salud. La simple actualización de las condiciones de servicio y el envío de notificaciones sobre el cambio puede hacer que los clientes se sientan explotados.
Por ejemplo, después de que la reciente medida de Zoom de reclamar tales derechos sobre el uso de los datos de los clientes. Las reacciones de los usuarios y los defensores de la privacidad obligaron al proveedor de videoconferencias a declarar en sus condiciones de servicio.
Uso responsable de los datos en la era de la IA
Si los modelos de IA de código abierto siguen adoptándose en todos los sectores. No sólo las grandes empresas tecnológicas tendrán que hacer frente a las preocupaciones sobre la propiedad de los datos.
Todas las empresas que quieran implantar estos modelos en tareas tan diversas como las herramientas de ayuda interna y los chatbots. Tendrán que enfrentarse a cuestiones relacionadas con el modo en que los sistemas de IA recopilan y utilizan los datos.
Aunque existen empresas emergentes, grupos de trabajo gubernamentales y comunidades académicas que trabajan en estos temas, aún están surgiendo mejores prácticas y políticas recomendadas.
El marco de gestión de datos de IA de la Facultad de Derecho de Stanford aborda específicamente las técnicas de IA generativa. La Association for Computing Machinery, la mayor organización profesional de informática del mundo, también ha publicado una serie de directrices sobre el diseño y la implantación de sistemas de Inteligencia Artificial Generativa, incluidos los LLM.
Estos recursos cubren algunas de las cuestiones que se tratan aquí, como los límites de despliegue, la propiedad de los datos y los resultados, etc.
Recomendamos que las organizaciones de todos los tamaños que deseen sacar provecho de la IA de código abierto. Esto al seguir de cerca las directrices y los marcos pertinentes para la recopilación y el uso responsables y éticos de datos para modelos de formación.
Pueden ser útiles para reflexionar sobre los posibles riesgos técnicos y sociales de cualquier proyecto potencial. Y para desarrollar procesos rigurosos de auditoría y supervisión que garanticen un despliegue seguro y eficaz.
¿Qué se han hecho en Tulane?
En Tulane hemos creado recientemente el Center for Community-Engaged Artificial Intelligence para investigar estas cuestiones. A través de un equipo interdisciplinar de tecnólogos, científicos sociales y activistas de los derechos civiles. Estamos trabajando con organizaciones sin ánimo de lucro y grupos comunitarios de Nueva Orleans para entender cómo afecta la IA a su trabajo.
Estamos ideando nuevas formas de construir sistemas de IA que cedan el control sobre los datos y la tecnología que la sustentan a las personas más afectadas por ella.
Nuestro trabajo forma parte de los crecientes esfuerzos en torno a la IA y los datos participativos o centrados en el ser humano, que reconocen que todas las partes interesadas deben estar incluidas en el valor creado por estos sistemas.
A medida que las empresas se adentran en el desarrollo de la IA, adherirse a valores similares podría ayudarles a administrar mejor los datos que recopilan y utilizan.
SOBRE LOS AUTORES
Aron Culotta es profesor asociado de informática y director del Center for Community-Engaged Artificial Intelligence de la Universidad de Tulane. Nicholas Mattei es profesor adjunto de informática en la Universidad de Tulane.