Un equipo de investigadores de IA de la Universidad de Pekín, Kuaishou Technology y la Universidad de Correos y Telecomunicaciones de Beijing ha desarrollado un nuevo modelo de IA llamado Pyramid Flow, que se puede utilizar para generar imágenes de vídeo virtuales de alta resolución (768p). El grupo ha escrito un papel describiendo cómo construyeron su modelo, sus atributos y usos que podrían darle y lo han publicado en el arXiv servidor de preimpresión.
En los últimos años, varias entidades, tanto públicas como privadas, han estado luchando por construir modelos de generación de IA de vídeo. Esto se debe a que dichos modelos pueden usarse para crear aplicaciones capaces de producir contenido de video virtual para su uso en televisión y películas, a un costo mucho menor que filmar escenas reales.
Esto significa que los modelos de IA están ganando valor muy rápidamente. En este nuevo esfuerzo, el equipo de China ha optado por hacer que su modelo sea de código abierto, lo que significa que cualquiera que decida desarrollar una aplicación para él (un shell de inferencia) y ejecutarlo localmente (incluso para uso comercial) puede hacerlo sin costo alguno. costo.
Los creadores de Pyramid Flow han agregado una nueva característica a los modelos de generación de video con IA: genera video en múltiples etapas de baja resolución antes de generar el resultado final de su procesamiento. El equipo de investigación afirma que un caparazón de inferencia puede generar un vídeo de cinco segundos en 56 segundos; el resultado será una resolución de 384p.
Señalan que su enfoque genera vídeo utilizando mucha menos potencia informática, lo que lo hace menos costoso. También reduce drásticamente la cantidad de tokens necesarios para la generación de video, lo que la hace más eficiente.
El equipo ha publicado (bajo una licencia del MIT) el código de Pyramid Flow en GitHubjunto con vídeos de muestra que demuestran los resultados altamente realistas que se pueden esperar del modelo. También enumeraron los conjuntos de datos de código abierto que utilizaron para entrenar su modelo, que en conjunto sumaron hasta 10 millones de videos cortos.
El equipo de investigación no mencionó el impacto de las continuas afirmaciones hechas por quienes ven videos virtuales creados a partir de bases de datos de código abierto que violan los derechos de los titulares de derechos de autor. Sin embargo, sí sugieren que Pyramid Flow podría ser una herramienta adecuada para ajustar el material de código abierto, sin la necesidad de pagar a un tercero.
Más información:
Yang Jin et al, Coincidencia de flujo piramidal para un modelado generativo de vídeo eficiente, arXiv (2024). DOI: 10.48550/arxiv.2410.05954
Manifestación: huggingface.co/spaces/Pyramid-Flow/pyramid-flow
© 2024 Red Ciencia X
Citación: El nuevo modelo de IA para la generación de videos de alta resolución, Pyramid Flow, está disponible como software de código abierto (2024, 14 de octubre) recuperado el 14 de octubre de 2024 de https://techxplore.com/news/2024-10-ai-res- pirámide-de-generación-de-vídeo.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.
GIPHY App Key not set. Please check settings