Nvidia se ha enfrentado a un escrutinio este mes porque algunos servidores con la friolera de 72 procesadores Blackwell se estaban sobrecalentando. El problema surgió porque algunas implementaciones iniciales de OEM no estaban adecuadamente refrigeradas por agua, lo que Lenovo identificó y mitigó agresivamente con sus soluciones de refrigeración por agua tibia Neptune.
A medida que avanza la IA, necesitaremos procesadores de IA más densos e increíblemente potentes, lo que sugiere que la refrigeración por aire en las salas de servidores puede volverse obsoleta.
Hablemos de Blackwell, la refrigeración por agua y de por qué la solución Neptune de Lenovo se destaca en este momento. Cerraremos con mi Producto de la semana: Windows 365 Link de Microsoft, que podría ser el eslabón perdido entre las PC y las terminales que podría cambiar para siempre la informática de escritorio.
Blackwell
Blackwell es la principal GPU de Nvidia centrada en la IA. Cuando se anunció, estaba tan lejos de lo que la mayoría habría considerado práctico que casi parecía más una quimera que una solución. Pero funciona y no hay nada parecido a su clase en este momento. Sin embargo, es enormemente denso desde el punto de vista tecnológico y genera mucho calor.
Algunos argumentan que es un desastre ecológico potencial. No me malinterpretes, consume mucha energía y genera una enorme cantidad de calor. Pero su rendimiento es tan alto en comparación con el tipo de carga que normalmente se obtendría con piezas más convencionales que su funcionamiento es relativamente económico.
Es como comparar un camión con tres remolques con una camioneta U-Haul. Sí, el semi obtendrá un rendimiento de gasolina comparativamente malo, pero también tendrá más capacidad de carga que 10 camionetas U-Haul y consumirá mucha menos gasolina que esas 10 camionetas, lo que lo hará más ecológico. Lo mismo ocurre con Blackwell. Está tan por encima de su competencia en términos de rendimiento que su uso de energía relativamente alto está por debajo de lo que de otro modo sería necesario para un servidor de IA competitivo.
Pero los chips Blackwell se calientan y la mayoría de los servidores actuales están refrigerados por aire. Por lo tanto, no debería sorprender que algunos servidores Blackwell estuvieran configurados con refrigeración por aire y aquellos con 72 o más procesadores Blackwell en un bastidor sobrecalentados. Si bien 72 Blackwells en un estante es inusual hoy en día, a medida que avance la IA, se volverá más común, dado que Nvidia es actualmente el rey de la IA.
Solo puedes llegar hasta cierto punto con la tecnología refrigerada por aire en términos de rendimiento antes de tener que pasar a la refrigeración líquida. Si bien Nvidia respondió a este problema con una especificación de rack refrigerada por agua que Dell ahora está usandoLenovo estaba muy por delante con su solución de refrigeración por agua Neptune.
Lenovo Neptuno
Lenovo fue el primero en darse cuenta de esto, principalmente porque actualmente es el líder del mercado en su clase en términos de refrigeración por agua, una tecnología adquirida inicialmente de IBM, que lleva décadas fabricando refrigeración por agua.
Lo importante con la refrigeración por agua no es sólo la tecnología sino el conocimiento de cómo implementarla de forma segura. Mezclar agua y productos electrónicos de alto amperaje puede ser un desastre si no sabes lo que estás haciendo. Como resultado de la adquisición del servidor IBM, Lenovo tiene décadas de experiencia en refrigeración por agua que llama Neptuno.
Dado que Nvidia ha especificado un bastidor refrigerado por agua, ¿qué hace que Neptune sea mejor? La respuesta es la experiencia. La mayoría de los que utilizarán la solución especificada por Nvidia, incluida Nvidia, no suelen implementar soluciones refrigeradas por agua. Como resultado, particularmente con estas implementaciones de Blackwell de alta gama, esencialmente aprenderán en el trabajo.
Puede ser realmente peligroso mezclar agua con componentes electrónicos de alto amperaje. El agua y la electricidad no se mezclan. Una fuga no sólo puede freír una pieza costosa o incluso una rejilla entera, sino que, si hay una persona presente, también puede freírla si los disyuntores no se instalan. En un entorno de piso elevado, a menos que haya sido diseñado Teniendo en cuenta las filtraciones, pueden suceder cosas terribles.
Yo mismo observé esto hace décadas, cuando estaba en IBM, y resultó que no habían sometido a prueba el sistema de refrigeración por agua de nuestro enorme (por el momento) centro de datos. El sitio perdió un transformador que apagó el sistema de refrigeración por agua, que no había sido sometido a pruebas de estrés por una parada repentina. Las tuberías estallaron y el centro de datos se convirtió en una piscina peligrosa. La mayor parte del hardware, que costó cientos de millones de dólares, se perdió y el edificio se inundó, lo que provocó daños adicionales.
A través de experiencias como esta, IBM se convirtió en el OEM líder en refrigeración por agua segura, y Lenovo adquirió ese conocimiento y experiencia cuando compró el grupo de servidores IBM x86. Ahora, Lenovo, junto con IBM, sabe cómo hacer refrigeración por agua mejor que la mayoría, lo que significa que puede estar seguro de que un servidor Lenovo Blackwell no se sobrecalentará ni comenzará a tener fugas repentinamente.
Además, la experiencia de Lenovo está en la refrigeración por agua caliente, una forma mucho más segura y menos costosa de enfriar servidores que la refrigeración por agua fría, que requiere evaporadores o enfriadores enormes e ineficientes.
Implementar esta tecnología no es una tarea trivial. A diferencia de los automóviles o las PC refrigeradas por agua, los servidores deben tener capacidades de intercambio en caliente, lo que significa que necesita conexiones antigoteo excepcionales y altamente probadas, alertas agresivas, programas de mantenimiento preventivo basados en el conocimiento previo de los componentes y técnicos con experiencia en el trabajo con este nivel de tecnología de refrigeración por agua.
Conclusión: un futuro de centros de datos refrigerados por agua caliente
Blackwell es solo el primero de estos procesadores increíblemente poderosos que llega al mercado porque a medida que la IA avanza más allá, los competidores de Nvidia también tendrán que impulsar algo similar, lo que sugiere que todos los servidores eventualmente necesitarán refrigeración por agua tibia.
Eso posiciona muy bien a Lenovo para un futuro refrigerado por agua, independientemente de la tecnología, mientras los competidores de Lenovo intentan ponerse al día. Un beneficio que espero que los técnicos esperen es la reducción del ruido del centro de datos. La cantidad de aire que hay que empujar a través de servidores refrigerados por aire es enorme y convierte los centros de datos actuales en una pesadilla de ruido.
A medida que la refrigeración por agua caliente llegue al mercado de forma más agresiva, estos centros de datos se calmarán, convirtiéndolos en lugares mucho más agradables para trabajar. Eso nos hará muy felices a muchos de los que tenemos que trabajar en ellos.
Enlace de Windows 365
Desde que reemplazamos las terminales por PC, TI ha querido recuperar la experiencia de la terminal. Las terminales eran como televisores pre-inteligentes en el sentido de que no había que hacer parches ni actualizaciones del sistema operativo ni lidiar con la «pantalla azul de la muerte». Si algo se rompía, era bastante fácil de arreglar o relativamente económico de reemplazar. Desde una perspectiva de TI, las terminales eran muchísimo mejores que las PC.
Pero en el lado de las PC, las terminales apestaban. No podía ejecutar lo que quería sin obtener soporte de TI, y TI podía tardar meses en responder a una solicitud.
Las terminales estaban conectadas a mainframes obsoletos que no podían ejecutar aplicaciones modernas en ese momento (ahora pueden hacerlo). Las nuevas aplicaciones generalmente se creaban a medida, pero una brecha en la comunicación entre los usuarios y el departamento de TI frecuentemente generaba problemas. Los usuarios luchaban por articular sus necesidades y, a menudo, TI no lograba buscar mejores especificaciones, lo que resultaba en aplicaciones frecuentemente inutilizables.
Bueno, en Microsoft Ignite la semana pasada, Microsoft anunció el Enlace de Windows 365 que puede ser lo más parecido a un terminal cableado perfecto (aún no existe una solución para computadora portátil) con características y rendimiento similares a los de una PC.
Si bien llamamos a esta clase un cliente ligero, Microsoft lo llama PC en la nube. Con un precio de $349 y el tamaño de una micro-PC, parece ser lo más cercano que hemos visto en términos de una combinación casi perfecta de PC/terminal.
Windows 365 Link será más confiable, más económico, seguro y mucho más pequeño que la mayoría de las PC de escritorio, lo que lo hará muy atractivo para TI. Al mismo tiempo, se conecta a una instancia de PC en la nube, brindando al usuario una experiencia muy similar a la de una PC.
En este momento solo se dirige a cuentas empresariales, principalmente porque tienen la mayor necesidad y la infraestructura necesaria. Veo que esto se trasladará a mercados como viajes, educación, gobierno, manufactura y otros mercados verticales con necesidades similares. Aunque todavía no se dirige a los usuarios de dispositivos móviles, el 5G completamente implementado y la próxima especificación 6G deberían permitir futuras implementaciones móviles.
Dado que Microsoft fue una de las empresas que lanzó la PC y dejó obsoletas las terminales, parece irónico (y poético) que Microsoft tome la iniciativa para dejarlas obsoletas, eventualmente. Veremos si eso sucede. Por ahora, Windows 365 Link es mi Producto de la Semana.
GIPHY App Key not set. Please check settings