El negocio del sonido: La promesa de las tecnologías de aprendizaje automático de audio
Las nuevas tecnologías de aprendizaje automático ofrecen un potencial de creación de valor a través de la detección, el análisis y la creación de sonido.
El sonido está por todas partes: el parloteo de personas y animales, el zumbido de las máquinas o el murmullo del entorno natural. Este es crucial para la toma de decisiones, ya sea como peatones o como ingenieros que comprueban la seguridad de una máquina.
Pero hasta hace poco, el análisis sistemático del sonido en situaciones dinámicas resultaba difícil. Esto debido a la enorme cantidad de señales acústicas complejas que interactúan a la vez. Pero esto está cambiando gracias a los grandes avances en tecnología de sensores y algoritmos de aprendizaje profundo. Esta tecnología pueden recoger enormes cantidades de datos acústicos y extraer rápidamente información clave.
Rafa Rodríguez, el poder de musicalizar una marca para hacer la diferencia
Están surgiendo dos ramas del aprendizaje automático relacionado con el sonido. Una centrada en la detección y el análisis de sonidos y otra en la creación de sonidos impulsada por IA.
Ambas tienen un gran potencial de creación de valor empresarial y social. De hecho, según una estimación, el mercado mundial de las tecnologías de reconocimiento de audio por IA se triplicará con creces, pasando de 4 mil 100 millones de dólares en 2021 a 14 mil 100 millones en 2030.
Análisis del sonido, ¿cómo se aplica este nuevo campo de la IA?
Los algoritmos de aprendizaje profundo se utilizan ahora para introducir innovaciones en una amplia gama de industrias y sectores. Como estas aplicaciones de detección y análisis de sonido:
Seguridad comercial y doméstica
Cada año, las empresas y los consumidores estadounidenses gastan miles de millones de dólares en proteger edificios y otros activos físicos. Los dispositivos domésticos inteligentes, como el Echo de Amazon, ya utilizan tecnología de reconocimiento de voz basada en IA. Esta se utiliza para autenticar a los distintos usuarios y ofrecer experiencias personalizadas de entretenimiento y compras.
Pero ahora los sensores y algoritmos de aprendizaje profundo de los sistemas de IA pueden analizar los sonidos ambientales no vocales de cada parte de un espacio. Así distingue los sonidos inocuos y aquellos que pueden indicar una amenaza emergente, como la rotura de un cristal.
¿Cómo se escucha el sonido del silencio? La ciencia lo explica
Asistencia sanitaria
Las tecnologías sonoras de IA podrían transformar muchos ámbitos de la atención sanitaria, sobre todo al permitir diagnósticos rápidos de enfermedades en sus primeras fases.
En la atención sanitaria, podrían utilizarse para proporcionar mediciones de una serie de datos biométricos. El aprendizaje profundo se ha utilizado para extraer y clasificar los “crepitantes” y “sibilantes” de distintas enfermedades pulmonares.
Cochl, una startup surcoreana, es pionera en aplicaciones de IA para identificar problemas de salud basándose en la tos y los estornudos de los pacientes. Estos sistemas de alerta temprana podrían resultar fundamentales en la lucha contra el COVID-19 y futuros brotes de virus.
Auriculares inteligentes
Las tecnologías de aprendizaje profundo acústico son pioneras en el mercado de los auriculares y otros dispositivos.
Estas tecnologías pueden filtrar ruidos no deseados o alertar a los usuarios de posibles peligros, como cuando alguien lleva los auriculares puestos mientras corre cerca del tráfico. Los algoritmos de aprendizaje automático pueden utilizarse para adaptar el contenido a distintos contextos. Por ejemplo reproduciendo sonidos más relajantes o suaves cuando las señales de respiración indican signos de estrés.
Industrias minoristas y de ocio
Las tecnologías de aprendizaje automático ya pueden reconocer a las personas a través del sonido de sus pisadas, aislando el eco de estas de los ruidos de fondo.
Las tecnologías de reconocimiento de la pisada basadas en el sonido ofrecen importantes ventajas sobre otros sistemas de vigilancia. Ya que funcionan incluso en condiciones de escasa iluminación y son menos intrusivas que los sistemas de reconocimiento facial, visión por ordenador o identificación biométrica.
Convertir el sonido en información: Kobi Abayomi de Warner Music Group
Una de las mayores aplicaciones potenciales de esta tecnología se encuentra en sectores que requieren un gran número de pisadas, como el comercio minorista.
El reconocimiento de pisadas basado en el sonido puede utilizarse para reconocer a clientes recurrentes y ayudar a identificar puntos de parada en el recorrido del comprador. También determina la sensibilidad temporal de los clientes en distintos momentos del día o de la semana, basándose en la rapidez de las pisadas.
Mantenimiento predictivo y sistemas de alerta temprana
Los algoritmos de aprendizaje profundo pueden analizar señales acústicas como la presión del ruido y las reverberaciones de máquinas y piezas de motores para evaluar el desgaste y predecir cuándo es probable que haya que sustituir una pieza concreta.
La NASA ha utilizado algoritmos de detección de sonido para supervisar el funcionamiento de los equipos a bordo de la Estación Espacial Internacional.
Se están utilizando algoritmos de aprendizaje profundo para clasificar señales acústicas submarinas con el fin de desarrollar potencialmente un sistema de alerta temprana de terremotos y tsunamis en aguas profundas.
Marketing y producción de contenidos multimedia
Las tecnologías de conversión de voz a texto existen desde hace tiempo, pero ahora está ocurriendo lo contrario con el crecimiento de las tecnologías de conversión de texto a voz o de vídeo a sonido basadas en IA.
AudioStack, una empresa emergente con sede en el Reino Unido, ofrece creación de audio con IA a partir de una base de datos de más de 600 voces en más de 60 idiomas. Los casos de uso incluyen la generación de anuncios de audio con diferentes matices regionales, música o tonos de voz, o la generación de voces sintéticas o clonadas para podcasts o noticias narradas a partir de contenido textual.
Santa Fe Klan, el líder musical que rompe paradigmas en el rap mexicano
El algoritmo que utiliza DeepZen para crear voces artificiales a partir de texto es capaz de inferir distintos tonos emocionales del contenido, como excitación, entusiasmo o comodidad.
AutoFoley se desarrolló para reproducir la función de los artistas de Foley, que añaden efectos de audio a las películas. Este tipo de aplicaciones tienen un enorme potencial en sectores como el de los videojuegos, el marketing y la edición, donde se prevé que la demanda mundial de locutores crecerá un 9 por ciento anual hasta alcanzar los dos mil 300 millones de dólares en 2026.
Recomendaciones para los líderes empresariales para aprovechar el sonido
El auge de la detección y creación de sonido basados en IA planteará varios retos a las empresas, especialmente en el ámbito de la propiedad intelectual. Para aprovechar las oportunidades y mitigar los riesgos, los líderes empresariales deben tener en cuenta estas recomendaciones:
Comprende y protege tus activos sonoros
La mayoría de las grandes empresas registrarán un conocido jingle o eslogan asociado a sus productos o servicios, pero en un mundo de sonificación basada en la IA, las empresas también tendrán que evaluar cuidadosamente la huella sonora de toda su cartera de productos. El zumbido distintivo de una lavadora o aspiradora, el encendido característico de un coche deportivo, el chasquido de una lata de refresco al abrirse.
La falsificación de sonidos se convertirá en un problema creciente para el que las empresas tendrán que prepararse.
La Inteligencia Artificial generativa sigue siendo líder
“Sonificar” la experiencia del producto
Las empresas prestarán cada vez más atención a las firmas sónicas de sus productos, ya sea para atenuar elementos cacofónicos o para potenciar sonidos estéticamente agradables (como el tic-tac del intermitente de un coche).
En el futuro, los fabricantes podrían incorporar firmas sonoras que sigan el ciclo de vida del producto. Por ejemplo, variando el perfil sonoro de un bien de consumo duradero a medida que sus componentes empiecen a desgastarse.
Las empresas de todo tipo tendrán que hacer de las firmas sonoras una parte esencial del diseño de la interfaz de usuario. Así tendrán que identificar los sonidos funcionales e informativos adecuados para los distintos usos y contextos. Posteriormente los tendrán que combinar con elementos visuales y otros sensoriales.
Preguntar por el sonido
Los sistemas de IA generativa permiten cada vez más a las empresas crear cualquier sonido y combinaciones sonoras completamente nuevos. Con una sola instrucción, los profesionales del marketing podrán crear una sintonía publicitaria para una nueva marca de helados o modificar un jingle de producto.
Ahora que la “ingeniería de instrucciones” se está convirtiendo en una disciplina importante en los campos de la IA y la automatización, las empresas tendrán que formar a diseñadores, vendedores y desarrolladores de productos para que escriban instrucciones eficientes para casos de uso basados en el sonido.
Depeche Mode, los padres del rock electrónico te enseñan sobre marketing
Como dice el refrán: “La sabiduría es la recompensa a toda una vida de escucha“.
Hoy en día, las tecnologías acústicas impulsadas por la IA están abriendo un mundo del sonido antes inaccesibles para nosotros. Ofrecen nuevas perspectivas y oportunidades a las empresas y los responsables políticos en ámbitos tan diversos como el comportamiento de los consumidores, la atención sanitaria, la planificación urbana, la seguridad comercial y la gestión de infraestructuras.
Las empresas que decidan escuchar este nuevo mundo y actuar en consecuencia estarán bien posicionadas para el éxito futuro.
SOBRE EL AUTOR
Mark Purdy (@mjpurdyecon) es director gerente de Purdy & Associates, una empresa independiente de investigación económica y tecnológica.