VLMS se destaca en el entorno 2D, pero el mundo visual está en 3D, y MindJourney proporciona mejores puntos de vista de los escenarios del mundo real y, en última instancia, tiene como objetivo pronosticar cómo las escenas cambian con el tiempo, según los investigadores de Microsoft.
MindJourney «Dibuja una trayectoria concisa de la cámara, mientras que el modelo mundial sintetiza la vista correspondiente en cada paso. El VLM razona sobre esta evidencia múltiple reunida durante la exploración interactiva», escribieron los investigadores en un papel.
Las tecnologías de Mindjourney podrían mejorar los robots de asistencia e inspección remota, y enriquecer las experiencias de realidad virtual y aumentada, escribieron los investigadores en el documento.