El poderoso papel del vídeo en la IA multimodal
La IA multimodal combina simultáneamente texto, audio, fotos y vídeo. (Y para ser claros, puede obtener la información del “texto” directamente del audio, las fotos o el video. Puede “leer” o extraer las palabras que ve y luego ingresar ese texto en la mezcla).
La IA multimodal con vídeo acerca mucho la interfaz usuario-computadora a la experiencia humana. Si bien la IA no puede pensar ni comprender, poder aprovechar el vídeo y otras entradas pone a las personas (que también son multimodales) en la misma página sobre el entorno físico o el tema de la conciencia.
Por ejemplo, durante la conferencia magistral de Google I/O, los ingenieros de la sede de Google Deepmind lo estaban observando, junto con el proyecto Astra, que (al igual que con el nuevo modelo de OpenAI) puede leer, ver y «observar» lo que hay en la pantalla de su computadora. ellos publicaron este video en X, que muestra a un ingeniero charlando sobre el video en la pantalla con la IA.
Otra demostración divertida que surgió mostró al GPT-4o en acción. En ese videoun ingeniero de OpenAI utiliza un teléfono inteligente que ejecuta GPT-4o y su cámara para describir lo que ve basándose en los comentarios y preguntas de otra instancia en otro teléfono inteligente de GPT-4o.
En ambas demostraciones, los teléfonos hacen lo que otra persona podría hacer: caminar con una persona y responder sus preguntas sobre objetos, personas e información en el mundo físico.
Los anunciantes buscan videos en IA multimodal como una forma de registrar el impacto emocional de sus anuncios. “Las emociones surgen a través de tecnología como el Proyecto Astra, que puede procesar el mundo real a través de la lente de la cámara de un teléfono móvil. Procesa continuamente imágenes e información que ve y puede devolver respuestas, incluso después de haber pasado por el objeto”, según un artículo de opinión en MediaPost de Laurie Sullivan.
GIPHY App Key not set. Please check settings