Los ingenieros buscan una fuente antigua para potenciar el futuro de la visión por computadora

La inteligencia artificial parece perfecta para crear conjuntos masivos de imágenes necesarias para entrenar automóviles autónomos y otras máquinas para ver su entorno, pero los sistemas de IA generativa actuales tienen deficiencias que pueden limitar su uso. Ahora, los ingenieros de Princeton han desarrollado un sistema de software para superar esos límites y crear rápidamente conjuntos de imágenes para preparar máquinas para casi cualquier entorno visual.

El nuevo sistema, llamado Infinigen, se basa en las matemáticas para crear objetos y entornos de apariencia natural en tres dimensiones. Infinigen es un generador de procedimientos, que en informática denota un programa que crea contenido basado en algoritmos automatizados diseñados por humanos en lugar de la entrada manual de datos que requiere mucha mano de obra o las redes neuronales que impulsan la IA moderna. De esta forma, el nuevo programa genera una miríada de objetos 3D utilizando solo reglas matemáticas aleatorias.

Infinigen es «un programa dinámico para construir escenas naturales ilimitadas, diversas y realistas», dijo Jia Deng, profesor asociado de informática en Princeton y autor principal de un nuevo estudio que detalla el sistema de software. El trabajo fue presentado en el CVPR 2023 conferencia.

El enfoque matemático de Infinigen le permite crear datos visuales etiquetados, que son necesarios para entrenar los sistemas de visión por computadora, incluidos los implementados en robots domésticos y automóviles autónomos. Debido a que Infinigen genera todas las imágenes mediante programación (primero crea un mundo en 3D, lo llena con objetos y coloca una cámara para tomar una foto), Infinigen puede proporcionar automáticamente etiquetas detalladas sobre cada imagen, incluidas la categoría y la ubicación de cada objeto.

Las imágenes con etiquetas automáticas se pueden usar para entrenar a un robot para que reconozca y ubique objetos con solo una imagen como entrada. Dichos datos visuales etiquetados no serían posibles con los generadores de imágenes de IA existentes, según Deng, porque esos programas generan imágenes utilizando una red neuronal profunda que no permite la extracción de etiquetas.

Además, los usuarios de Infinigen tienen un control detallado de la configuración del sistema, como la iluminación precisa y el ángulo de visión, y pueden ajustar el sistema para que las imágenes sean más útiles como datos de entrenamiento.

Además de generar mundos virtuales poblados por objetos digitales con formas, tamaños, texturas y colores naturales, las capacidades de Infinigen se extienden a representaciones sintéticas de fenómenos naturales como el fuego, las nubes, la lluvia y la nieve.

«Esperamos que Infinigen demuestre ser un recurso útil no solo para crear datos de entrenamiento para la visión por computadora, sino también para la realidad virtual y aumentada, el desarrollo de juegos, la realización de películas, la impresión 3D y la generación de contenido en general», dijo Deng.

Para construir Infinigen, los investigadores de Princeton comenzaron con Blender, un sistema gráfico de código abierto y de uso gratuito de herramientas de software preconstruidas que data de la década de 1990. De acuerdo con el espíritu de Blender, los investigadores de Princeton han lanzado el código de Infinigen bajo una licencia compatible con GPL, lo que significa que cualquiera puede usarlo libremente.

Al ampliar enormemente el menú de objetos y paisajes renderizados en 3D, otra ventaja clave de Infinigen es que puede aumentar la capacidad de las máquinas para realizar reconstrucciones en 3D, a partir de píxeles 2D, de los espacios complejos en los que operarán. Si bien pasar de las imágenes del mundo real a las imágenes sintéticas para desarrollar automóviles y robots que se moverán en el mundo real puede parecer contradictorio, los conjuntos de datos de imágenes reales tienen limitaciones clave, dijo Deng.

Para empezar, las computadoras que guían a los robots y los autos inteligentes no perciben imágenes y otros objetos visuales como lo hacen los humanos. Una imagen que parece tridimensional para un ser humano es solo una colección bidimensional de píxeles para una computadora. Para permitir que los robots perciban una imagen en 3D, la imagen debe incluir una instrucción llamada «verdad del terreno 3D». Esto es difícil de hacer con imágenes 2D existentes, pero fácil para un sistema como Infinigen.

«Los conjuntos de datos sintéticos de imágenes 3D han mostrado una gran promesa inicial», dijo Deng, «y desarrollamos Infinigen para cumplir aún más con esta promesa».

Para Infinigen, los investigadores de Princeton diseñaron subprogramas, llamados generadores, que se especializan en producir tipos únicos y distintos de objetos digitales, por ejemplo, «peces» o «montañas». Los usuarios pueden trabajar con los subprogramas para adaptar una variedad de parámetros que incluyen tamaño, textura, color y reflectividad.

«Los usuarios pueden modificar los parámetros para crear tanta realidad o irrealidad como deseen para su tarea en particular», dijo Deng. «La expansión puede ayudar a garantizar que las máquinas estén ampliamente capacitadas para manejar y navegar por el espectro completo de entornos que se pueden encontrar».

Los investigadores esperan que Infinigen se convierta en una herramienta de colaboración, que permita a los usuarios agregar más funciones a medida que se desarrolla.

«Un objetivo es que la cobertura de Infinigen sea tan buena que el proyecto se convierta en el lugar de referencia para los datos de entrenamiento de visión por computadora, sea cual sea la tarea», dijo Deng. «Queremos que Infinigen se convierta en un esfuerzo colaborativo impulsado por la comunidad que proporcione una herramienta útil para muchos usuarios».

Más información:
Informe: Mundos fotorrealistas infinitos utilizando la generación procedimental

Proporcionado por la Universidad de Princeton

Citación: Los ingenieros buscan una fuente antigua para potenciar el futuro de la visión artificial (2023, 7 de julio) consultado el 7 de julio de 2023 en https://techxplore.com/news/2023-07-source-empower-future-vision.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.

Fuente

Yahoo está listo para comprar el navegador Chrome si Google se ve obligado a vender

Cómo ganar amigos falsos e influir en personas falsas

El teléfono más delgado de Samsung, todavía, los detalles de Galaxy S25 Edge surgen de la fuente de confianza

Honor 400 Lite – Unboxing – CoolSmartPhone

Arlo lanza el soporte para el hogar de Apple para la alineación de cámara esencial de segunda generación

Cómo evitar que su iPhone o iPad sugiera efectos de texto en mensajes

Transformando las puertas del mundo real en puertas de enlace al mundo virtual: el futuro de la realidad mixta

Acudir a los datos de tuk tuk: cómo un sistema automatizado puede ayudar a prosperar el transporte del turismo

De IBM a OpenAI: 50 años de estrategias ganadoras (y fallidas) en Microsoft

El fundador de Microsoft, Bill Gates, reflexiona sobre un código de computadora de 50 años que remodeló la tecnología

‘Shenmue’ votó a los videojuegos más influyentes en la encuesta del Reino Unido

La NASA avanza en el sistema avanzado de gestión de seguridad de drones

Crean pantallas de inicio para juegos de Nintendo Switch al estilo de Wii

Galaxy S21, S20 FE y Flip 3 obtienen la actualización de julio de 2023