in

Cómo construyó Microsoft su cámara inteligente Surface

“Desde el primer día de Surface Hub 2, sabíamos que íbamos a hacer que nuestras cámaras fueran inteligentes”, explica Steven Bathiche, quien supervisa toda la innovación de hardware para dispositivos de Microsoft, en una entrevista con el borde. La sorpresiva cámara inteligente Surface Hub 2 de Microsoft de $799.99 debutó la semana pasada y ofrece reencuadre automático sin las deformaciones y distorsiones que normalmente se ven en otras cámaras de salas de conferencias.

Puede detectar rostros y cuerpos, en un esfuerzo por asegurarse de que todos en una sala estén visibles durante las reuniones, ya sea que estén cerca de la cámara o a una distancia de hasta ocho metros. La cámara inteligente Surface Hub 2 puede ver casi toda una sala de conferencias gracias a su campo de visión de 136 grados, que mantiene enfocadas a las personas en el frente junto con las de atrás.

Microsoft siempre había planeado actualizar su cámara Surface Hub 2 antes de que la pandemia pusiera el foco en las reuniones híbridas, por eso es modular y se puede separar de la parte superior de las pantallas de 55 u 85 pulgadas. “Sabíamos que íbamos a evolucionar la experiencia. No sabíamos exactamente cómo, pero sabíamos que eso iba a cambiar y debía cambiar con las necesidades de las personas, la evolución de la sala de conferencias e incluso cómo nuestra cultura se adaptará esencialmente a las reuniones”, dice Bathiche.

Los dispositivos grandes como Surface Hub 2 de 85 pulgadas presentaban desafíos para capturar a todos en una sala de reuniones con una cámara tradicional. “Necesitábamos una cámara para manejar salas más grandes”, dice Bathiche, por lo que Microsoft se puso a trabajar.

Bathiche y su equipo crearon la óptica, el modelo de IA y la computadora perimetral propios de Microsoft para ingresar a la cámara inteligente Surface Hub 2 y potenciar su fotografía computacional. “Tiene cómputo integrado, 1 teraflops de cómputo que esencialmente alberga un modelo de IA realmente grande que hemos construido”, dice Bathiche. “Incluye la aplicación de encuadre automático, reside en la cámara, por lo que lo que sale es solo una imagen 4K, por lo que literalmente parece una cámara web para Surface Hub”.

Eso significa que todo el trabajo de IA se realiza en la propia cámara y nunca se envía a la nube o incluso por cable a Surface Hub 2 para procesar. La cámara ejecuta el modelo de IA, procesa todos los datos y toma la decisión de recortar la imagen en consecuencia. Si bien el encuadre automático puede capturar a todos en una habitación automáticamente, la cámara inteligente también utilizará la compensación de inclinación para ajustar la imagen a la posición de la cámara y, en su lugar, crear un contacto visual más natural. También puede eliminar el efecto ojo de pez de los lentes gran angular para que las personas no se vean distorsionadas o estiradas dentro de las salas de reuniones.

“Diseñamos una lente de 11 elementos, completamente de vidrio con un enfoque súper nítido y básicamente cerca de los límites de refracción”, explica Bathiche. Detrás de la lente hay un sensor de 12 megapíxeles (4000 x 3000) con una apertura f/1.8 que genera la imagen recortada 4K. “La lente real tiene un campo de visión de 184 grados, por lo que la cámara puede mirar hacia atrás”.

Microsoft construyó piezas personalizadas para su Surface Smart Camera.
Imagen: Microsoft

Sin embargo, todo este hardware no es nada sin los modelos de IA que alimentan la Surface Smart Camera. Microsoft inició este proyecto antes de la pandemia, pero tuvo que entrenar sus modelos de IA durante la pandemia, que presentó los desafíos obvios de llenar las salas de reuniones con personas.

“Fuimos a Nueva Zelanda porque no tenían ningún caso de COVID-19 y teníamos oficinas allí”, explica Bathiche. “Contratamos actores y actrices para recopilar datos en todo tipo de salas. Nuestro conjunto de datos es absolutamente masivo”.

Microsoft entrenó su modelo de IA en caras y cuerpos para garantizar que sea totalmente inclusivo y detectará a las personas que no siempre están frente a la cámara. Incluso usó personas y rostros sintéticos para mejorar su diversidad en situaciones y personas. “Tenemos una tecnología interna realmente genial que puede generar datos sintéticos, por lo que pudimos generar personas y rostros sintéticos”, agrega Bathiche.

Sin embargo, la cámara inteligente no está capacitada para detectar mascotas o animales. Eso debería significar que no intentará replantear automáticamente una reunión si aparece un gato o un perro en la oficina. Microsoft también ha aplicado su principios de IA responsable a este proyecto, que incluyen un comité y un conjunto de herramientas para garantizar la equidad y la inclusión de la IA.

La Surface Smart Camera tiene computación integrada.
Imagen: Microsoft

“Si observa nuestro conjunto de datos, es absolutamente sorprendente en términos de disparidad entre los diferentes grupos: raza, género, tono de piel, peinados, etc.”, explica Bathiche. “Creo que una de las cosas que está integrada en la cámara y que la gente podría no ver en la caja es la robustez y la inclusión que tiene el modelo”.

Bathiche dice que Microsoft se ha «sentado y sintonizado al máximo» las capacidades de encuadre automático de su cámara inteligente durante el año pasado para asegurarse de que no sea demasiado nervioso o demasiado lento para perder contenido. “Cada cuadro que obtiene la cámara, decide si vale la pena mover o volver a recortar la imagen”.

Quizás se pregunte si podría usar esta cámara de $ 799.99 en una PC con Windows normal, pero no es tan simple. Si bien todos los modelos de cómputo e inteligencia artificial están alojados dentro de la cámara inteligente Surface Hub 2, en realidad no está diseñada para ser una cámara web normal. “Su punto de diseño fue específicamente para Hub. La elevación, los ángulos y la IA se diseñaron para varias personas cercanas y lejanas”, explica Bathiche. “Aunque técnicamente podrías diseñar un soporte y conectarlo a una PC, no creo que funcione tan bien como quisieras”.

Esta no es la primera vez que Microsoft se enfoca en mejorar sus cámaras web y cámaras. Surface Pro X ya tiene una función de contacto visual impulsada por IA que hace que parezca que siempre estás haciendo contacto visual sin importar lo que estés mirando durante una videollamada. Apple agregó una función de corrección de atención de FaceTime similar a iOS 13. “Los algoritmos que usamos en el contacto visual [for the Surface Pro X] son los mismos algoritmos para las caras que usamos dentro de esta cámara”, dice Bathiche.

Microsoft claramente diseñó esta cámara inteligente para Surface Hub 2, pero con los rumores persistentes sobre las cámaras web de la marca Surface, es posible que algún día veamos una cámara web potente de Microsoft en lugar de las asequibles que existen hoy. “Esta área de usar la computación para unir a las personas y hacer que las personas se sientan como si estuvieran en la misma habitación… Creo que es algo que siempre nos ha apasionado y que nos seguirá apasionando, y continuaremos desarrollando nuestra dispositivos como se ven en la Surface Pro X”, dice Bathiche.

Fuente

Apple anuncia nuevo programa de coaching para educadores

Fujifilm X-H1

Fujifilm X-H2 podría hacer que los fotógrafos elijan entre dos nuevos sensores