El software crea vistas completamente nuevas a partir de videos existentes

camara de video — Crédito: Pixabay/CC0 Dominio público

Es posible que los cineastas pronto puedan estabilizar videos inestables, cambiar puntos de vista y crear efectos de fotogramas congelados, zoom y cámara lenta, sin filmar nuevas imágenes, gracias a un algoritmo desarrollado por investigadores de la Universidad de Cornell y Google Research.

El software, llamado DynIBar, sintetiza nuevas vistas utilizando información de píxeles del video original e incluso funciona con objetos en movimiento y un trabajo de cámara inestable. El trabajo es un gran avance con respecto a los esfuerzos anteriores, que produjeron solo unos pocos segundos de video y, a menudo, los sujetos en movimiento se veían borrosos o con fallas.

El código para este esfuerzo de investigación es disponible de forma gratuitaaunque el proyecto se encuentra en una etapa inicial y aún no está integrado en las herramientas comerciales de edición de video.

«Si bien esta investigación aún está en sus inicios, estoy muy entusiasmado con las posibles aplicaciones futuras para uso personal y profesional», dijo Noah Snavely, científico investigador de Google Research y profesor asociado de informática en Cornell Tech y en el Cornell Ann S. Bowers Facultad de Informática y Ciencias de la Información.

Snavely presentó este trabajo, «DynIBaR: Neural Dynamic Image-Based Rendering», en la Conferencia IEEE/CVF 2023 sobre visión artificial y reconocimiento de patrones, el 20 de junio, donde recibió una mención de honor al premio a la mejor ponencia. Zhengqi Li, Ph.D, de Google Research fue el autor principal del estudio.

«En los últimos años, hemos visto un gran progreso en los métodos de síntesis de vista: algoritmos que pueden tomar una colección de imágenes que capturan una escena desde un conjunto discreto de puntos de vista y pueden generar nuevas vistas de esa escena», dijo Snavely. «Sin embargo, la mayoría de estos métodos fallan en escenas con personas o mascotas en movimiento, árboles balanceándose, etc. Esto es un gran problema porque muchas cosas interesantes en el mundo son cosas que se mueven».

Los métodos existentes para generar nuevas vistas de escenas fijas, como las que hacen que una foto parezca 3D, toman la cuadrícula 2D de píxeles de una imagen y reconstruyen la forma 3D y la apariencia de cada objeto en la foto. DynIBar lleva esto un paso más allá al estimar también cómo se mueven los objetos con el tiempo. Pero considerar las cuatro dimensiones crea un problema matemático increíblemente difícil.

Los investigadores simplificaron este problema mediante el uso de un enfoque de gráficos por computadora desarrollado en la década de 1990 llamado representación basada en imágenes. En ese momento, era difícil para los métodos tradicionales de gráficos por computadora representar escenas complejas con muchas partes pequeñas, como un árbol frondoso, por lo que los investigadores de gráficos desarrollaron métodos que toman imágenes de una escena y luego alteran y recombinan las partes para generar nuevas imágenes. De esta forma, la mayor parte de la complejidad se almacenaba en la imagen de origen y podía cargarse más rápido.

«Incorporamos la idea clásica de renderizado basado en imágenes y eso hace que nuestro método sea capaz de manejar escenas realmente complejas y videos más largos», dijo el coautor Qianqian Wang, estudiante de doctorado en el campo de la informática en Cornell Tech. Wang desarrolló un método para usar representación basada en imágenes para sintetizar nuevas vistas de imágenes fijasen el que se basa el nuevo software.

A pesar del avance, es posible que estas funciones no lleguen a su teléfono inteligente en el corto plazo. El software tarda varias horas en procesar solo 10 o 20 segundos de video, incluso en una computadora poderosa. En el corto plazo, la tecnología puede ser más apropiada para su uso en el software de edición de video fuera de línea, dijo Snavely.

El próximo obstáculo será descubrir cómo renderizar nuevas imágenes cuando falta información de píxeles del video original, como cuando el sujeto se mueve demasiado rápido o el usuario quiere rotar el punto de vista 180 grados. Snavely y Wang prevén que pronto será posible incorporar técnicas generativas de inteligencia artificial, como generadores de texto a imagen, para ayudar a llenar esos vacíos.

Proporcionado por la Universidad de Cornell

Citación: El software crea vistas completamente nuevas a partir del video existente (2023, 13 de julio) recuperado el 13 de julio de 2023 de https://techxplore.com/news/2023-07-software-views-video.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.

Fuente

¿Deberían los agentes de IA obtener identificaciones gubernamentales? Estonia dice que sí

Toda una vida de ChatGPT, Claude y Gemini en un solo lugar por solo $70 durante los días de oferta

Ofertas DJI Mini 4K Prime Day de junio de 2026: mejores precios y paquetes de Amazon (sin registro de la FAA)

Cómo llevar las mejores funciones de Android 17 a cualquier teléfono Android hoy

Apple presentó estas cinco nuevas aplicaciones la semana pasada

Preguntas y respuestas: Temporal pretende ser la columna vertebral de confiabilidad para una economía de IA agente

El software crea vistas completamente nuevas a partir de videos existentes

Una investigación identifica errores en el software de divulgación científica

El videojuego ‘Grand Theft Auto VI’ se retrasa nuevamente hasta noviembre de 2026

Los investigadores proponen un nuevo modelo de software modular y legible

Preguntas y respuestas: desarrollo de neumáticos virtuales mejorado mediante software de modelado

El servicio Microsoft Azure sufre una interrupción

China sueña por fin con la gloria del fútbol… en los videojuegos

Bungie gana la demanda contra el jugador de Destiny que acosó a los empleados