in

El efecto de contacto visual de Nvidia cambia el juego para los creadores de contenido de video

Cree autoservicio inteligente rápidamente con NICE Enlighten XO

Las videoconferencias, los podcasts y los seminarios web aumentaron en popularidad durante los años de pandemia de 2020 y 2021 a medida que el trabajo remoto se convirtió en parte de la nueva normalidad. Con la pandemia ahora en el espejo retrovisor, las técnicas de comunicación por video no han mostrado signos de desaceleración.

Lo que ha sido divertido para mí es que, a pesar de la omnipresencia de las comunicaciones por video, lo poco favorecedores que a menudo aparecemos en la cámara usando cámaras web de baja resolución y poca potencia reciben muy poca atención. La mala iluminación, principalmente cuando se utilizan videollamadas desde casa, es sin duda un gran problema. Las cámaras web con resolución sub-HD integradas en la mayoría de las computadoras portátiles, incluso las de gama alta, no ayudan.

Sin los activos profesionales disponibles en un estudio de televisión profesional, los políticos, las celebridades y los expertos de la industria a menudo se ven horribles cuando son entrevistados de forma remota desde sus hogares.

Las llamadas de videoconferencia de rutina desde el hogar son especialmente vulnerables a una apariencia de «hora amateur», particularmente durante una presentación formal donde la mirada errante (por ejemplo, no mirar directamente a la cámara web) puede distraer al espectador.

La ubicación de la cámara web es responsable de este efecto no deseado porque la cámara generalmente está integrada en la parte superior del panel de la computadora portátil o en un soporte separado que es difícil de colocar frente a una pantalla de escritorio.

Debido a que las videoconferencias típicas que utilizan una computadora de escritorio o portátil no tienen la funcionalidad de teleprompter adecuada, que es compleja, voluminosa y costosa, es casi imposible leer las notas del orador sin evitar el molesto fenómeno de un horrible ángulo de cámara web que mira hacia arriba o hacia abajo. .

¿Hay formas rápidas de solucionar el problema de la mirada?

Hay algunas formas de mitigar este problema en una configuración doméstica típica de computadora de escritorio o portátil. Sin embargo, estos enfoques son estrictamente engañosos y no eliminan el problema.

Un par de empresas ofrecen pequeñas cámaras web externas, a menudo equipadas sin un micrófono integrado, para reducir el tamaño del dispositivo y permitir su ubicación en el centro de la pantalla, frente a cualquier material de texto o la ventana de visualización de la aplicación de video que está utilizando.

Estas cámaras usan un cable delgado cubierto y sujeto a la parte superior de la pantalla. De esta manera, mira directamente a la cámara web y puede ver la mayoría, aunque no todo, el material de presentación o texto que está presentando.


Aún así, otro método es usar una pieza transparente de plástico acrílico que le permite montar casi cualquier cámara web y engancharla a la parte superior de la pantalla para que la cámara web quede suspendida frente al punto central de la pantalla.

La ventaja de este enfoque es que lo libera para usar su cámara web preferida. La desventaja es que el tamaño de la cámara web y el aparato de plástico acrílico a menudo oscurece una buena parte de la pantalla, lo que la hace menos útil como alternativa al teleprompter.

En el futuro, podemos ver pantallas de computadoras portátiles y PC con cámaras web integradas detrás del panel LCD, que son invisibles para el usuario. Si bien esta es una solución ideal para el problema que describí anteriormente, la desventaja es que el costo de estas pantallas especiales será muy alto, y la mayoría de los fabricantes se mostrarán reticentes a ofrecer debido a las implicaciones de la elasticidad del precio.

La IA puede solucionar problemas de contacto visual de manera conveniente y rentable.

La idea de utilizar la inteligencia artificial para mitigar o eliminar el contacto visual durante las videoconferencias no es nueva. Cuando se hace correctamente, la IA puede eliminar la necesidad de comprar costosos equipos de teleprompting que usan los estudios de televisión o recurrir a algunos de los métodos ingeniosos que describí anteriormente.

El desafío de emplear IA para realizar correcciones de contacto visual sobre la marcha (en vivo) o incluso en un escenario grabado es que requiere potencia del procesador para hacer gran parte del trabajo pesado.

Apple Silicon ha tenido esta capacidad integrada durante algunos años con sus chips para iPhone. No muchos usuarios saben que la aplicación FaceTime de Apple tiene corrección de contacto visual (que se puede desactivar), lo que garantiza que su mirada esté enfocada en el centro de la pantalla, independientemente de la orientación del iPhone.

Configuración de contacto visual para la aplicación FaceTime de Apple

Configuración de contacto visual en la aplicación FaceTime de Apple


Microsoft también se ha unido a la fiesta de la IA para solucionar los problemas de contacto visual. El año pasado, anunció que agregaría la capacidad de solución de contacto visual a Windows 11 aprovechando el poder de las soluciones Arm de Qualcomm y aprovechando el silicio de la unidad de procesamiento neuronal (NPU) para mejorar el video y el audio en las reuniones, incluido el encuadre del sujeto, la supresión del ruido de fondo. y desenfoque de fondo.

Muchas de estas funciones ya estaban disponibles en el dispositivo Surface Pro X de Microsoft, que usa un chip Arm. Aún así, Microsoft implementará ampliamente esta funcionalidad en modelos más compatibles de los principales fabricantes de equipos originales de PC este año.

Transmisión de Nvidia con contacto visual

Aplicación de transmisión de Nvidia, que funciona en una amplia gama de tarjetas gráficas externas Nvidia, es una sólida herramienta de IA que mejora las videollamadas y las comunicaciones en PC basadas en x86. La semana pasada, Nvidia mejoró la utilidad en la versión 1.4 para respaldar su implementación de Eye Contact, haciendo que parezca que el sujeto dentro del video está mirando directamente a la cámara.

El nuevo efecto Contacto visual ajusta los ojos del hablante para reproducir el contacto visual con la cámara. Esta capacidad se logra utilizando la potencia de la IA en las GPU de Nvidia para estimar y alinear la mirada con precisión.

Función de contacto visual de Nvidia Broadcast

El nuevo efecto Contacto visual en Nvidia Broadcast 1.4 mueve los ojos del orador para simular el contacto visual con la cámara. | Crédito de la imagen: Nvidia


La ventaja del enfoque de Nvidia es que la capacidad no se limita a una sola plataforma o aplicación de videoconferencia. Apple solo admite su capacidad de corrección de contacto visual con la aplicación FaceTime de iPhone. Sin embargo, no me sorprendería si Apple extiende esta capacidad a los usuarios de macOS a finales de este año junto con su capacidad de cámara de continuidad.

Además, Nvidia Broadcast proporciona una funcionalidad de Vignette comparable a la que experimentan muchos usuarios de la aplicación de Instagram. De esta manera, Nvidia Broadcast puede generar un desenfoque de fondo discreto para obtener una imagen borrosa simulada por IA en su cámara web, lo que mejora inmediatamente la calidad visual.

La sustitución de imágenes de fondo en las llamadas de videoconferencia no es nada nuevo. Aún así, el enfoque de Nvidia presumiblemente ofrecerá una mejor calidad ya que aprovecha el poder de sus tarjetas gráficas, que están optimizadas para la creación de contenido de video y juegos.

Pensamientos finales

La función de contacto visual en la aplicación Broadcast de Nvidia se encuentra actualmente en forma beta y aún no es adecuada para su implementación. Como cualquier característica beta, sufrirá fallas inevitables, y debemos retrasar el juicio formal de su calidad hasta que la versión de producción esté disponible.

Además, Nvidia Broadcast no es solo una aplicación común y corriente, sino un SDK abierto con funciones que se pueden integrar en aplicaciones de terceros. Eso abre un nuevo e interesante potencial para que las aplicaciones de terceros aprovechen directamente la funcionalidad en Nvidia Broadcast.

A pesar de eso, estoy sorprendido por algunas de las reacciones adversas que han aparecido en los últimos años en torno a la posibilidad de usar IA para corregir el contacto visual. Algunos analistas tecnológicos han usado frases como el «factor espeluznante» para categorizar esta característica de la manera menos atractiva posible.


De hecho, la capacidad inspirará muchos chistes, quizás merecidos, si el efecto posterior parece antinatural y artificial. Sin embargo, la espeluznante designación parece exagerada y falsa. Se podría hacer la misma insinuación sobre el uso de maquillaje o la implementación de herramientas mejoradas que corrigen las deficiencias de audio durante una videollamada. Las aplicaciones como TikTok o Instagram no existirían sin filtros, que crean imágenes mucho más espeluznantes, en mi opinión.

Nos guste o no, las videoconferencias han sobrevivido como uno de los resultados positivos del mundo pospandémico. Utilizar tecnología que facilite videollamadas más productivas, convincentes e impactantes es algo que debemos agradecer, no despreciar.

Como alguien que produce un podcast de vídeo semanal y reconoce el potencial de eliminar o incluso reducir la mirada fija, lo que, a su vez, podría introducir ventajas similares a las del teleprompter, espero probar esta capacidad tan necesaria en las próximas semanas.

Fuente

Remake de Dead Space – ¿Dónde está el tesoro de Peng?

M2 Mac mini vs M2 Pro Mac mini: ¿realmente vale el doble el modelo de gama alta?