in

Gafas con IA + IA multimodal = una nueva industria masiva

Gafas con IA + IA multimodal = una nueva industria masiva

El poderoso papel del vídeo en la IA multimodal

La IA multimodal combina simultáneamente texto, audio, fotos y vídeo. (Y para ser claros, puede obtener la información del “texto” directamente del audio, las fotos o el video. Puede “leer” o extraer las palabras que ve y luego ingresar ese texto en la mezcla).

La IA multimodal con vídeo acerca mucho la interfaz usuario-computadora a la experiencia humana. Si bien la IA no puede pensar ni comprender, poder aprovechar el vídeo y otras entradas pone a las personas (que también son multimodales) en la misma página sobre el entorno físico o el tema de la conciencia.

Por ejemplo, durante la conferencia magistral de Google I/O, los ingenieros de la sede de Google Deepmind lo estaban observando, junto con el proyecto Astra, que (al igual que con el nuevo modelo de OpenAI) puede leer, ver y «observar» lo que hay en la pantalla de su computadora. ellos publicaron este video en X, que muestra a un ingeniero charlando sobre el video en la pantalla con la IA.

Otra demostración divertida que surgió mostró al GPT-4o en acción. En ese videoun ingeniero de OpenAI utiliza un teléfono inteligente que ejecuta GPT-4o y su cámara para describir lo que ve basándose en los comentarios y preguntas de otra instancia en otro teléfono inteligente de GPT-4o.

En ambas demostraciones, los teléfonos hacen lo que otra persona podría hacer: caminar con una persona y responder sus preguntas sobre objetos, personas e información en el mundo físico.

Los anunciantes buscan videos en IA multimodal como una forma de registrar el impacto emocional de sus anuncios. “Las emociones surgen a través de tecnología como el Proyecto Astra, que puede procesar el mundo real a través de la lente de la cámara de un teléfono móvil. Procesa continuamente imágenes e información que ve y puede devolver respuestas, incluso después de haber pasado por el objeto”, según un artículo de opinión en MediaPost de Laurie Sullivan.



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Los investigadores desarrollan una computadora energéticamente eficiente combinando CMOS con nanoimán estocástico

Los investigadores desarrollan una computadora probabilística energéticamente eficiente combinando CMOS con nanoimán estocástico

¿Pueden las citas tipo Wikipedia en YouTube frenar la desinformación?

La extensión del navegador prototipo agrega citas similares a las de Wikipedia en YouTube para frenar la desinformación