La aplicación de inteligencia artificial VASA-1 de Microsoft hace que las fotografías hablen y canten con expresiones faciales creíbles

Un equipo de investigadores de inteligencia artificial de Microsoft Research Asia ha desarrollado una aplicación de inteligencia artificial que convierte una imagen fija de una persona y una pista de audio en una animación que retrata con precisión al individuo hablando o cantando la pista de audio con expresiones faciales apropiadas.

El equipo ha publicado un papel describiendo cómo crearon la aplicación en el arXiv servidor de preimpresión; muestras de vídeo están disponibles en la página del proyecto de investigación.

El equipo de investigación buscó animar imágenes fijas hablando y cantando utilizando cualquier pista de audio de respaldo proporcionada, y al mismo tiempo mostrando expresiones faciales creíbles. Claramente tuvieron éxito con el desarrollo de VASA-1, un sistema de inteligencia artificial que convierte imágenes estáticas, ya sean capturadas por una cámara, dibujadas o pintadas, en lo que describen como animaciones «exquisitamente sincronizadas».

El grupo ha demostrado la eficacia de su sistema publicando breves vídeos de los resultados de sus pruebas. En uno, una versión de dibujos animados de la Mona Lisa interpreta una canción de rap; en otro, una fotografía de una mujer se ha transformado en un espectáculo de canto, y en otro, un dibujo de un hombre pronuncia un discurso.

En cada una de las animaciones, las expresiones faciales cambian junto con las palabras de una manera que enfatiza lo que se dice. Los investigadores señalan también que a pesar de la naturaleza realista de los videos, una inspección más cercana puede revelar fallas y evidencia de que han sido generados artificialmente.

Crédito: Microsoft

El equipo de investigación logró sus resultados entrenando su aplicación con miles de imágenes con una amplia variedad de expresiones faciales. También señalan que el sistema produce actualmente imágenes de 512 por 512 píxeles a 45 fotogramas por segundo. Además, tomó un promedio de dos minutos producir los videos utilizando una GPU Nvidia RTX 4090 de escritorio.

El equipo de investigación sugiere que VASA-1 podría usarse para generar avatares extremadamente realistas para juegos o simulaciones. Al mismo tiempo, reconocen el potencial de abuso y, por lo tanto, no ponen el sistema a disposición para uso general.

Más información:
Sicheng Xu et al, VASA-1: Caras parlantes realistas impulsadas por audio generadas en tiempo real, arXiv (2024). DOI: 10.48550/arxiv.2404.10667

Página del proyecto: www.microsoft.com/en-us/research/project/vasa-1/

Información de la revista:
arXiv

Citación: La aplicación de inteligencia artificial VASA-1 de Microsoft hace que las fotografías hablen y canten con expresiones faciales creíbles (2024, 19 de abril) recuperado el 20 de mayo de 2024 de https://techxplore.com/news/2024-04-microsoft-ai-app-vasa-believable .html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.

Fuente

He aquí por qué la Apple Store está cayendo

Las mejores ofertas de transmisión del Black Friday: ahorre a lo grande en Apple TV, Disney+, Hulu y más

El iPhone Air es un fracaso tal que incluso los imitadores están siendo cancelados

Apple lanza anuncio televisivo de la temporada navideña de 2025: ‘A Critter Carol’

El Nest Learning Thermostat de Google redujo drásticamente mi factura de calefacción y tiene un descuento de $ 50 para el Black Friday

Lente de fotograma completo Brightin Star MF 50 mm F0.95 II

La aplicación de inteligencia artificial VASA-1 de Microsoft hace que las fotografías hablen y canten con expresiones faciales creíbles

Una investigación identifica errores en el software de divulgación científica

El videojuego ‘Grand Theft Auto VI’ se retrasa nuevamente hasta noviembre de 2026

Los investigadores proponen un nuevo modelo de software modular y legible

Preguntas y respuestas: desarrollo de neumáticos virtuales mejorado mediante software de modelado

El servicio Microsoft Azure sufre una interrupción

China sueña por fin con la gloria del fútbol… en los videojuegos

Deja una respuestaCancelar la respuesta

Un nuevo estudio revela las principales razones por las que la gente quiere jugar

Noches de apertura: las comunidades Samsung, Skateboarding y Breaking celebran el lanzamiento de una nueva serie documental con proyecciones exclusivas en Street League Skateboarding San Diego y Pro Breaking Tour Atlanta