El fabricante de chips informáticos de alta potencia Nvidia presentó el lunes un nuevo modelo de inteligencia artificial desarrollado por sus investigadores que puede generar o transformar cualquier mezcla de música, voces y sonidos descritos con indicaciones utilizando cualquier combinación de archivos de texto y audio.
El nuevo modelo de IA llamado Fugatto (por Foundational Generative Audio Transformer Opus) puede crear un fragmento de música basado en un mensaje de texto, eliminar o agregar instrumentos de una canción existente, cambiar el acento o la emoción en una voz e incluso producir sonidos nunca antes escuchados. .
Según Nvidia, al admitir numerosas tareas de generación y transformación de audio, Fugatto es el primer modelo fundamental de IA generativa que muestra propiedades emergentes (capacidades que surgen de la interacción de sus diversas habilidades entrenadas) y la capacidad de combinar instrucciones de forma libre.
«Queríamos crear un modelo que comprenda y genere sonido como lo hacen los humanos», dijo en un comunicado Rafael Valle, gerente de investigación de audio aplicada en Nvidia.
«Fugatto es nuestro primer paso hacia un futuro en el que el aprendizaje multitarea no supervisado en síntesis y transformación de audio surja de la escala de datos y modelos», añadió.
Nvidia señaló que el modelo es capaz de manejar tareas para las que no fue entrenado previamente, así como generar sonidos que cambian con el tiempo, como el efecto Doppler del trueno cuando una tormenta pasa por un área.
La compañía agregó que a diferencia de la mayoría de los modelos, que solo pueden recrear los datos de entrenamiento a los que han estado expuestos, Fugatto permite a los usuarios crear paisajes sonoros nunca antes vistos, como una tormenta que llega al amanecer con el sonido de los pájaros cantando.
Modelo innovador de IA para la transformación del audio
«La introducción de Fugatto por parte de Nvidia marca un avance significativo en la tecnología de audio impulsada por IA», observó Kaveh Vahdat, fundador y presidente de SubirOppuna empresa nacional de servicios de CMO con sede en San Francisco.
«A diferencia de los modelos existentes que se especializan en tareas específicas, como composición musical, síntesis de voz o generación de efectos de sonido, Fugatto ofrece un marco unificado capaz de manejar una amplia gama de funciones relacionadas con el audio», dijo a TechNewsWorld. «Esta versatilidad lo posiciona como una herramienta integral para la síntesis y transformación de audio».
Vahdat explicó que Fugatto se distingue por su capacidad de generar y transformar audio basándose tanto en instrucciones de texto como en entradas de audio opcionales. «Este enfoque de entrada dual permite a los usuarios crear salidas de audio complejas que combinan a la perfección varios elementos, como combinar la melodía de un saxofón con el timbre de un gato maullando», dijo.
Además, continuó, la capacidad de Fugatto para interpolar entre instrucciones permite un control matizado sobre atributos como el acento y la emoción en la síntesis de voz, ofreciendo un nivel de personalización que no se encuentra comúnmente en las herramientas de audio de IA actuales.
«Fugatto es un paso extraordinario hacia una IA que puede manejar múltiples modalidades simultáneamente», añadió Benjamín Leeprofesor de ingeniería en la Universidad de Pensilvania.
«El uso conjunto de entradas de texto y audio puede producir modelos mucho más eficientes o efectivos que usar texto solo», dijo a TechNewsWorld. «La tecnología es interesante porque, más allá del texto, amplía los volúmenes de datos de entrenamiento y las capacidades de los modelos generativos de IA».
Nvidia en su máxima expresión
Mark N. Vena, presidente y analista principal de Investigación de tecnología inteligente en Las Vegas, afirmó que Fugatto representa lo mejor de Nvidia.
«La tecnología introduce capacidades avanzadas en el procesamiento de audio de IA al permitir la transformación del audio existente en formas completamente nuevas», dijo a TechNewsWorld. «Esto incluye convertir una melodía de piano en una línea vocal humana o alterar el acento y el tono emocional de las palabras habladas, ofreciendo una flexibilidad sin precedentes en la manipulación del audio».
«A diferencia de las herramientas de audio de IA existentes, Fugatto puede generar sonidos novedosos a partir de descripciones de texto, como hacer que una trompeta suene como un perro ladrando», dijo. «Estas funciones brindan a los creadores de música, cine y juegos herramientas innovadoras para el diseño de sonido y la edición de audio».
Fugatto trata el audio de manera integral (abarcando efectos de sonido, música, voz, prácticamente cualquier tipo de audio, incluidos sonidos que no se han escuchado antes) y precisamente, agregó Ross Rubin, analista principal de Investigación de retículauna firma de asesoría en tecnología de consumo en la ciudad de Nueva York.
Citó el ejemplo de Sunoun servicio que utiliza IA para generar canciones. “Acaban de lanzar una nueva versión que tiene mejoras en cómo suenan las voces humanas generadas y otras cosas, pero no permite los tipos de cambios creativos y precisos que permite Fugatto, como agregar nuevos instrumentos a una mezcla, cambiar los estados de ánimo de alegres a triste, o mover una canción de un tono menor a un tono mayor”, dijo a TechNewsWorld.
«Su comprensión del mundo del audio y la flexibilidad que ofrece va más allá de los motores específicos de máscara que hemos visto para cosas como generar una voz humana o generar una canción», dijo.
Abre la puerta a los creativos
Vahdat señaló que Fugatto puede resultar útil tanto en publicidad como en el aprendizaje de idiomas. Las agencias pueden crear contenido de audio personalizado que se alinee con las identidades de marca, incluidas voces en off con acentos específicos o tonos emocionales, señaló.
Al mismo tiempo, en el aprendizaje de idiomas, las plataformas educativas podrán desarrollar materiales de audio personalizados, como diálogos en varios acentos o contextos emocionales, para ayudar en la adquisición del idioma.
«La tecnología Fugatto abre las puertas a una amplia gama de aplicaciones en las industrias creativas», sostuvo Vena. «Los cineastas y desarrolladores de juegos pueden usarlo para crear paisajes sonoros únicos, como convertir sonidos cotidianos en efectos fantásticos o inmersivos», dijo. «También tiene potencial para experiencias de audio personalizadas en realidad virtual, tecnologías de asistencia y educación, adaptando sonidos a tonos emocionales específicos o preferencias del usuario».
“En la producción musical”, añadió, “se pueden transformar instrumentos o estilos vocales para explorar composiciones innovadoras”.
Sin embargo, es posible que sea necesario un mayor desarrollo para obtener mejores resultados musicales. «Todos estos resultados son triviales y algunos existen desde hace más tiempo… y son mejores», observó Dennis Bathory-Kitszmúsico y compositor de Northfield Falls, Vermont.
«El aislamiento de la voz fue torpe y poco musical», dijo a TechNewsWorld. “Los instrumentos adicionales también fueron triviales y la mayoría de las transformaciones fueron incoloras. La única ventaja es que no requiere ningún aprendizaje particular, por lo que el desarrollo de la musicalidad del usuario de IA será mínimo”.
«Puede marcar el comienzo de algunos usos nuevos (los músicos reales ya son maravillosamente inventivos), pero a menos que los desarrolladores tengan mejores habilidades musicales para empezar, los resultados serán deprimentes», dijo. «Serán un desperdicio musical que se unirá al desperdicio visual y verbal de la IA».
Suplente de AGI
Dado que la inteligencia general artificial (AGI) aún está en el futuro, Fugatto puede ser un modelo para simular la AGI, cuyo objetivo en última instancia es replicar o superar las capacidades cognitivas humanas en una amplia gama de tareas.
«Fugatto es parte de una solución que utiliza IA generativa en un paquete colaborativo con otras herramientas de IA para crear una solución similar a AGI», explicó Rob Enderle, presidente y analista principal de Grupo Enderleuna firma de servicios de asesoría en Bend, Oregon.
«Hasta que hagamos que AGI funcione», dijo a TechNewsWorld, «este enfoque será la forma dominante de crear proyectos de IA más completos con mucha mayor calidad e interés».
GIPHY App Key not set. Please check settings