in

Un experto en generación de vídeo con IA analiza los rápidos avances de la tecnología y sus limitaciones actuales

falsificación profunda

profundo

Crédito: imagen generada por IA

En este ciclo presidencial ya se han visto varios ejemplos destacados de personas que utilizan deepfakes para intentar influir en los votantes. Los deepfakes son imágenes, grabaciones de audio o vídeos generados o modificados mediante modelos de inteligencia artificial (IA) para representar personas reales o ficticias. Ejemplos recientes de deepfake incluyen audio manipulado de Joe Biden instando a los votantes a quedarse en casa durante las primarias e imágenes fabricadas de Taylor Swift respaldando a Donald Trump.

Parece que la inteligencia artificial generativa es una herramienta cada vez más destacada en la caja de herramientas de desinformación. ¿Deberían los votantes preocuparse por ser bombardeados con vídeos falsos de políticos creados con IA generativa? Un experto en visión por computadora y aprendizaje profundo de la Universidad de Rochester dice que si bien la tecnología avanza rápidamente, la generación de videos deepfake sigue siendo más difícil de aprovechar para los malos actores debido a su naturaleza compleja.

Si bien los productos de OpenAI, incluido ChatGPT para generación de texto y DALL-E 3 para generación de imágenes, están ganando popularidad, la compañía aún no ha lanzado un equivalente para generación de video. Según Chenliang Xu, profesor asociado de ciencias de la computación en la Universidad de Rochester, la compañía ha publicado avances de su software de generación de video Sora, pero aún no ha lanzado el producto, que aún se encuentra en pruebas y perfeccionamiento.

«La generación de vídeo utilizando IA sigue siendo un tema de investigación en curso y un problema difícil porque es lo que llamamos contenido multimodal», afirma Xu. «Generar vídeos en movimiento junto con el audio correspondiente son problemas difíciles por sí solos, y alinearlos es aún más difícil».

Xu dice que su grupo de investigación fue uno de los primeros en utilizar redes neuronales artificiales para generar vídeo multimodal en 2017. Comenzaron con tareas como Proporcionar una imagen de un violinista y audio de un violín para generar un vídeo en movimiento de un violinista.. A partir de ahí, pasaron a problemas como generar movimientos de labios y luego a crear caras parlantes completas con gestos de cabeza a partir de una sola imagen.

«Ahora podemos generar cabezales totalmente manejables en tiempo real e incluso convierte las cabezas en varios estilos especificado por las descripciones del idioma», dice Xu.







CABEZAS PARLANTES: El científico informático Chenliang Xu y sus colegas investigadores pueden generar vídeos realistas de cabezas parlantes a partir de una fotografía individual o incluso de una pintura, como se demuestra aquí con un vídeo en bucle creado a partir de una imagen de la Mona Lisa y una foto de la cabeza de Xu. Crédito: Chenliang Xu

Desafíos de la tecnología de detección de deepfakes

El equipo de Xu también ha desarrollado tecnología para detección de deepfake. Lo llama un área que necesita más investigación y señala que es más fácil desarrollar tecnología para generar deepfakes que detectarlos debido a los datos de entrenamiento necesarios para construir los modelos generalizados de detección de deepfakes.

«Si quieres construir una tecnología que sea capaz de detectar deepfakes, necesitas crear una base de datos que identifique qué son imágenes falsas y qué son imágenes reales», dice Xu. «Ese etiquetado requiere una capa adicional de participación humana que la generación no requiere».

Otra preocupación, añade, es crear un detector que sea generalizable a diferentes tipos de generadores de deepfake. «Puedes crear un modelo que funcione bien con las técnicas que conoces, pero si alguien usa un modelo diferente, tu algoritmo de detección tendrá dificultades para capturarlo», afirma.

Los objetivos más fáciles para los vídeos deepfakes

Tener acceso a buenos datos de entrenamiento es crucial para crear modelos de IA generativa efectivos. Como resultado, Xu dice que los políticos y las celebridades serán los primeros y más fáciles objetivos cuando los generadores de video estén ampliamente disponibles.

«Es más fácil generar políticos y celebridades que personas normales porque simplemente hay más datos sobre ellos», dice Xu. «Como ya existe tanto vídeo de ellos, estos modelos pueden usarlo para aprender las expresiones que muestran en diferentes situaciones, junto con sus voces, su cabello, movimientos y emociones».

Pero espera que, al menos inicialmente, los datos de entrenamiento en los que se basan los «deepfakes de celebridades» en particular puedan hacerlos más fácilmente visibles.

«Si utilizas sólo fotografías de alta calidad para entrenar un modelo, producirás resultados similares», dice Xu. «Puede dar como resultado un estilo demasiado suave que puedes elegir como señal para saber que es un deepfake».

Otras señales pueden incluir qué tan natural parece la reacción de una persona, si puede mover la cabeza e incluso la cantidad de dientes que se muestran. Pero los generadores de imágenes han superado señales tempranas similares (como la creación de manos con seis dedos) y Xu dice que suficientes datos de entrenamiento pueden mitigar estas limitaciones.

Pide a la comunidad de investigación que invierta más esfuerzos en desarrollar estrategias de detección de deepfake y abordar las preocupaciones éticas que rodean el desarrollo de estas tecnologías.

«Los modelos generativos son una herramienta que en manos de gente buena puede hacer cosas buenas, pero en manos de gente mala puede hacer cosas malas», afirma Xu. «La tecnología en sí no es buena ni mala, pero debemos discutir cómo evitar que estas poderosas herramientas terminen en las manos equivocadas y se utilicen de manera maliciosa».

Proporcionado por la Universidad de Rochester


Citación: Experto en generación de videos con IA analiza los rápidos avances de la tecnología y sus limitaciones actuales (2024, 22 de octubre) obtenido el 22 de octubre de 2024 de https://techxplore.com/news/2024-10-ai-video-generation-expert-discusses. HTML

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Revisión de iCloud Drive: el servicio de almacenamiento en la nube al que pueden acceder todos los usuarios de Apple

Gartner: Las 10 principales tendencias tecnológicas estratégicas para 2025