La inteligencia artificial parece perfecta para crear conjuntos masivos de imágenes necesarias para entrenar automóviles autónomos y otras máquinas para ver su entorno, pero los sistemas de IA generativa actuales tienen deficiencias que pueden limitar su uso. Ahora, los ingenieros de Princeton han desarrollado un sistema de software para superar esos límites y crear rápidamente conjuntos de imágenes para preparar máquinas para casi cualquier entorno visual.
El nuevo sistema, llamado Infinigen, se basa en las matemáticas para crear objetos y entornos de apariencia natural en tres dimensiones. Infinigen es un generador de procedimientos, que en informática denota un programa que crea contenido basado en algoritmos automatizados diseñados por humanos en lugar de la entrada manual de datos que requiere mucha mano de obra o las redes neuronales que impulsan la IA moderna. De esta forma, el nuevo programa genera una miríada de objetos 3D utilizando solo reglas matemáticas aleatorias.
Infinigen es «un programa dinámico para construir escenas naturales ilimitadas, diversas y realistas», dijo Jia Deng, profesor asociado de informática en Princeton y autor principal de un nuevo estudio que detalla el sistema de software. El trabajo fue presentado en el CVPR 2023 conferencia.
El enfoque matemático de Infinigen le permite crear datos visuales etiquetados, que son necesarios para entrenar los sistemas de visión por computadora, incluidos los implementados en robots domésticos y automóviles autónomos. Debido a que Infinigen genera todas las imágenes mediante programación (primero crea un mundo en 3D, lo llena con objetos y coloca una cámara para tomar una foto), Infinigen puede proporcionar automáticamente etiquetas detalladas sobre cada imagen, incluidas la categoría y la ubicación de cada objeto.
Las imágenes con etiquetas automáticas se pueden usar para entrenar a un robot para que reconozca y ubique objetos con solo una imagen como entrada. Dichos datos visuales etiquetados no serían posibles con los generadores de imágenes de IA existentes, según Deng, porque esos programas generan imágenes utilizando una red neuronal profunda que no permite la extracción de etiquetas.
Además, los usuarios de Infinigen tienen un control detallado de la configuración del sistema, como la iluminación precisa y el ángulo de visión, y pueden ajustar el sistema para que las imágenes sean más útiles como datos de entrenamiento.
Además de generar mundos virtuales poblados por objetos digitales con formas, tamaños, texturas y colores naturales, las capacidades de Infinigen se extienden a representaciones sintéticas de fenómenos naturales como el fuego, las nubes, la lluvia y la nieve.
«Esperamos que Infinigen demuestre ser un recurso útil no solo para crear datos de entrenamiento para la visión por computadora, sino también para la realidad virtual y aumentada, el desarrollo de juegos, la realización de películas, la impresión 3D y la generación de contenido en general», dijo Deng.
Para construir Infinigen, los investigadores de Princeton comenzaron con Blender, un sistema gráfico de código abierto y de uso gratuito de herramientas de software preconstruidas que data de la década de 1990. De acuerdo con el espíritu de Blender, los investigadores de Princeton han lanzado el código de Infinigen bajo una licencia compatible con GPL, lo que significa que cualquiera puede usarlo libremente.
Al ampliar enormemente el menú de objetos y paisajes renderizados en 3D, otra ventaja clave de Infinigen es que puede aumentar la capacidad de las máquinas para realizar reconstrucciones en 3D, a partir de píxeles 2D, de los espacios complejos en los que operarán. Si bien pasar de las imágenes del mundo real a las imágenes sintéticas para desarrollar automóviles y robots que se moverán en el mundo real puede parecer contradictorio, los conjuntos de datos de imágenes reales tienen limitaciones clave, dijo Deng.
Para empezar, las computadoras que guían a los robots y los autos inteligentes no perciben imágenes y otros objetos visuales como lo hacen los humanos. Una imagen que parece tridimensional para un ser humano es solo una colección bidimensional de píxeles para una computadora. Para permitir que los robots perciban una imagen en 3D, la imagen debe incluir una instrucción llamada «verdad del terreno 3D». Esto es difícil de hacer con imágenes 2D existentes, pero fácil para un sistema como Infinigen.
«Los conjuntos de datos sintéticos de imágenes 3D han mostrado una gran promesa inicial», dijo Deng, «y desarrollamos Infinigen para cumplir aún más con esta promesa».
Para Infinigen, los investigadores de Princeton diseñaron subprogramas, llamados generadores, que se especializan en producir tipos únicos y distintos de objetos digitales, por ejemplo, «peces» o «montañas». Los usuarios pueden trabajar con los subprogramas para adaptar una variedad de parámetros que incluyen tamaño, textura, color y reflectividad.
«Los usuarios pueden modificar los parámetros para crear tanta realidad o irrealidad como deseen para su tarea en particular», dijo Deng. «La expansión puede ayudar a garantizar que las máquinas estén ampliamente capacitadas para manejar y navegar por el espectro completo de entornos que se pueden encontrar».
Los investigadores esperan que Infinigen se convierta en una herramienta de colaboración, que permita a los usuarios agregar más funciones a medida que se desarrolla.
«Un objetivo es que la cobertura de Infinigen sea tan buena que el proyecto se convierta en el lugar de referencia para los datos de entrenamiento de visión por computadora, sea cual sea la tarea», dijo Deng. «Queremos que Infinigen se convierta en un esfuerzo colaborativo impulsado por la comunidad que proporcione una herramienta útil para muchos usuarios».
Más información:
Informe: Mundos fotorrealistas infinitos utilizando la generación procedimental
Citación: Los ingenieros buscan una fuente antigua para potenciar el futuro de la visión artificial (2023, 7 de julio) consultado el 7 de julio de 2023 en https://techxplore.com/news/2023-07-source-empower-future-vision.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.