Gafas con IA + IA multimodal = una nueva industria masiva

El poderoso papel del vídeo en la IA multimodal

La IA multimodal combina simultáneamente texto, audio, fotos y vídeo. (Y para ser claros, puede obtener la información del “texto” directamente del audio, las fotos o el video. Puede “leer” o extraer las palabras que ve y luego ingresar ese texto en la mezcla).

La IA multimodal con vídeo acerca mucho la interfaz usuario-computadora a la experiencia humana. Si bien la IA no puede pensar ni comprender, poder aprovechar el vídeo y otras entradas pone a las personas (que también son multimodales) en la misma página sobre el entorno físico o el tema de la conciencia.

Por ejemplo, durante la conferencia magistral de Google I/O, los ingenieros de la sede de Google Deepmind lo estaban observando, junto con el proyecto Astra, que (al igual que con el nuevo modelo de OpenAI) puede leer, ver y «observar» lo que hay en la pantalla de su computadora. ellos publicaron este video en X, que muestra a un ingeniero charlando sobre el video en la pantalla con la IA.

Otra demostración divertida que surgió mostró al GPT-4o en acción. En ese videoun ingeniero de OpenAI utiliza un teléfono inteligente que ejecuta GPT-4o y su cámara para describir lo que ve basándose en los comentarios y preguntas de otra instancia en otro teléfono inteligente de GPT-4o.

En ambas demostraciones, los teléfonos hacen lo que otra persona podría hacer: caminar con una persona y responder sus preguntas sobre objetos, personas e información en el mundo físico.

Los anunciantes buscan videos en IA multimodal como una forma de registrar el impacto emocional de sus anuncios. “Las emociones surgen a través de tecnología como el Proyecto Astra, que puede procesar el mundo real a través de la lente de la cámara de un teléfono móvil. Procesa continuamente imágenes e información que ve y puede devolver respuestas, incluso después de haber pasado por el objeto”, según un artículo de opinión en MediaPost de Laurie Sullivan.

Fuente

Hollow Knight: Fecha y hora de lanzamiento de Silksong

El sistema de seguridad inteligente de Ecobee ahora funciona con la aplicación de inicio y Siri

2021–2024 Envíos sin espejo por fabricante: Canon encabeza la tabla por delante de Sony

Microsoft revela tres nuevos controladores de Xbox de edición especial

Marvel Rivals se lanza en PS4 en la temporada 4, confirmaron dos nuevos héroes

LLM Siri con la función de búsqueda de ‘Conocimiento mundial’ a principios de 2026

Gafas con IA + IA multimodal = una nueva industria masiva

El poderoso papel del vídeo en la IA multimodal

El juicio de la búsqueda de Google-Apple: ¿Deberían preocuparse las empresas de Genai?

Alivio para la Comisión Europea a medida que el Tribunal mantiene el Acuerdo de Marco de Privacidad de Datos de la UE con EE. UU.

Sin ruptura para Google: el tribunal opta por las soluciones de comportamiento sobre la división estructural

Estas son las principales certificaciones de IA que lo harán contratar y promover

Cómo prepararse para una explosión de burbujas de IA

Las ventas de teléfonos inteligentes aumentan ligeramente, con AI Mobiles preparados para hacerse cargo

Deja una respuestaCancelar la respuesta

Los investigadores desarrollan una computadora probabilística energéticamente eficiente combinando CMOS con nanoimán estocástico

La extensión del navegador prototipo agrega citas similares a las de Wikipedia en YouTube para frenar la desinformación