Los investigadores de Microsoft han anunciado una nueva aplicación que utiliza inteligencia artificial para imitar la voz de una persona con solo unos segundos de entrenamiento. El modelo de la voz se puede utilizar para aplicaciones de texto a voz.
La aplicación llamada VALL-E se puede usar para sintetizar voz personalizada de alta calidad con solo una grabación de registro de tres segundos de un hablante como un aviso acústico, escribieron los investigadores en un artículo publicado en línea en arXiv, un servicio de distribución gratuito y abierto. -acceder al archivo de artículos académicos.
Ahora hay programas que pueden cortar y pegar voz en un flujo de audio, y esa voz se convierte en la voz de un orador a partir del texto escrito. Sin embargo, el programa debe estar capacitado para emular la voz de una persona, lo que puede llevar una hora o más.
“Una de las cosas más destacadas de este modelo es que lo hace en cuestión de segundos. Eso es muy impresionante”, Ross Rubin, analista principal de Investigación de retículauna firma de asesoría de tecnología de consumo en la ciudad de Nueva York, dijo a TechNewsWorld.
Según los investigadores, VALL-E supera significativamente a los sistemas de texto a voz (TTS) de última generación existentes tanto en la naturalidad del habla como en la similitud del hablante.
Además, VALL-E puede preservar las emociones y el entorno acústico del orador. Entonces, si una muestra de voz se grabó a través de un teléfono, por ejemplo, el texto que usa esa voz sonaría como si se estuviera leyendo a través de un teléfono.
‘Súper impresionante’
VALL-E es una mejora notable con respecto a los sistemas de vanguardia anteriores, como YourTTS, lanzado a principios de 2022, dijo Giacomo Miceli, científico informático y creador de un sitio web con una discusión interminable generada por IA que presenta el habla sintética de Werner Herzog y Slavoj Žižek.
“Lo interesante de VALL-E no es solo el hecho de que solo necesita tres segundos de audio para clonar una voz, sino también lo cerca que puede coincidir con esa voz, el timbre emocional y cualquier ruido de fondo”, dijo Miceli a TechNewsWorld. Ritu Jyoti, vicepresidente de grupo de IA y automatización de IDCuna compañía de investigación de mercado global, calificó a VALL-E de “significativo y súper impresionante”.
“Esta es una mejora significativa con respecto a los modelos anteriores, que requieren un período de entrenamiento mucho más largo para generar una nueva voz”, dijo Jyoti a TechNewsWorld.
“Todavía son los primeros días de esta tecnología, y se esperan más mejoras para que suene más parecido a un humano”, agregó.
Emulación de emociones cuestionada
A diferencia de OpenAI, el fabricante de ChatGPT, Microsoft no ha abierto VALL-E al público, por lo que quedan dudas sobre su rendimiento. Por ejemplo, ¿existen factores que puedan causar la degradación del habla producida por la aplicación?
“Cuanto más tiempo se genera el fragmento de audio, mayores son las posibilidades de que un humano escuche cosas que suenan un poco mal”, observó Miceli. «Las palabras pueden ser poco claras, perdidas o duplicadas en la síntesis de voz».
“También es posible que cambiar entre registros emocionales suene poco natural”, agregó.
La capacidad de la aplicación para emular las emociones de un hablante también genera escepticismo. “Será interesante ver cuán robusta es esa capacidad”, dijo Mark N. Vena, presidente y analista principal de Investigación de tecnología inteligente en San José, California
“El hecho de que afirmen que puede hacer eso con solo unos segundos de audio es difícil de creer”, continuó, “dadas las limitaciones actuales de los algoritmos de IA, que requieren muestras de voz mucho más largas”.
Preocupaciones éticas
Los expertos ven aplicaciones beneficiosas para VALL-E, así como algunas no tan beneficiosas. Jyoti citó la edición de voz y el reemplazo de actores de voz. Miceli señaló que la tecnología podría usarse para crear herramientas de edición para podcasters, personalizar la voz de parlantes inteligentes, además de incorporarse a sistemas de mensajería y salas de chat, videojuegos e incluso sistemas de navegación.
“La otra cara de la moneda es que un usuario malicioso podría clonar la voz de, digamos, un político y hacer que diga cosas que suenen absurdas o incendiarias, o en general para difundir información falsa o propaganda”, agregó Miceli.
Vena ve un enorme potencial de abuso en la tecnología si es tan buena como afirma Microsoft. “A nivel de seguridad y servicios financieros, no es difícil conjurar casos de uso por parte de actores nefastos que podrían hacer cosas realmente dañinas”, dijo.
Jyoti también ve preocupaciones éticas en torno a VALL-E. “A medida que avance la tecnología, las voces generadas por VALL-E y tecnologías similares serán más convincentes”, explicó. “Eso abriría la puerta a llamadas de spam realistas que replican las voces de personas reales que una víctima potencial conoce”.
“Los políticos y otras figuras públicas también podrían ser suplantados”, agregó.
“Podría haber posibles problemas de seguridad”, continuó. “Por ejemplo, algunos bancos permiten contraseñas de voz, lo que genera preocupaciones sobre el uso indebido. Podríamos esperar una escalada de la carrera armamentista entre el contenido generado por IA y el software de detección de IA para detener el abuso”.
“Es importante tener en cuenta que VALL-E no está disponible actualmente”, agregó Jyoti. “En general, regular la IA es fundamental. Habrá que ver qué medidas pone en marcha Microsoft para regular el uso de VALL-E”.
Entran los Abogados
También pueden surgir problemas legales en torno a la tecnología. “Desafortunadamente, es posible que no existan suficientes herramientas legales actualizadas para abordar directamente estos problemas y, en cambio, se puede usar una mezcolanza de leyes que cubren cómo se abusa de la tecnología para reducir dicho abuso”, dijo. Michael L. Teichdirector de Harness IP, un bufete nacional de abogados de propiedad intelectual.
“Por ejemplo”, continuó, “la clonación de voz puede resultar en una falsificación profunda de la voz de una persona real que puede usarse para engañar a un oyente para que sucumba a una estafa o incluso puede usarse para imitar la voz de un candidato electoral. Si bien tales abusos probablemente generarían problemas legales en los campos del fraude, la difamación o las leyes de desinformación electoral, faltan leyes específicas de IA que aborden el uso de la tecnología en sí”.
“Además, dependiendo de cómo se obtuvo la muestra de voz inicial, puede haber implicaciones bajo la Ley federal de escuchas telefónicas y las leyes estatales de escuchas telefónicas si la muestra de voz se obtuvo, por ejemplo, a través de una línea telefónica”, agregó.
«Por último», señaló Teich, «en circunstancias limitadas, puede haber preocupaciones de la Primera Enmienda si un actor gubernamental usara dicha clonación de voz para silenciar, deslegitimar o diluir las voces legítimas del ejercicio de sus derechos de libertad de expresión».
“A medida que estas tecnologías maduran, puede haber una necesidad de leyes específicas para abordar directamente la tecnología y evitar su abuso a medida que la tecnología avanza y se vuelve más accesible”, dijo.
Hacer inversiones inteligentes
En las últimas semanas, Microsoft ha estado en los titulares de AI. Se espera que incorpore la tecnología ChatGPT en su motor de búsqueda Bing este año y posiblemente en sus aplicaciones de Office. Según los informes, también planea invertir $ 10 millones en OpenAI, y ahora, VALL-E.
“Creo que están haciendo muchas inversiones inteligentes”, dijo Bob O’Donnell, fundador y analista jefe de Investigación en tecnálisisuna firma de consultoría e investigación de mercado de tecnología en Foster City, California.
“Se subieron al carro de OpenAI hace varios años, por lo que han estado detrás de escena durante bastante tiempo. Ahora está surgiendo a lo grande”, dijo O’Donnell a TechNewsWorld.
“Tuvieron que ponerse al día con Google, que es conocido por su IA, pero Microsoft está haciendo algunos movimientos agresivos para estar a la vanguardia”, continuó. “Están aprovechando la popularidad y la increíble cobertura que han tenido todas estas cosas”.
Rubin añadió: “Microsoft, habiendo sido el líder en productividad durante los últimos 30 años, quiere conservar y ampliar ese liderazgo. La IA podría tener la clave para eso”.