
Un clúster de computación Testbed, conocido como «Sandbox», se muestra dentro del centro de datos en Jefferson Lab. Crédito: Jefferson Lab Photo/Bryan Hess
¿Quién, o más bien, qué será el próximo modelo superior? Los científicos y desarrolladores de datos de la Instalación Nacional de Acelerador de Thomas Jefferson del Departamento de Energía de EE. UU. Están tratando de averiguarlo, explorando algunas de las últimas técnicas de inteligencia artificial (IA) para ayudar a que las computadoras de alto rendimiento sean más confiables y menos costosas de ejecutar.
Los modelos en este caso son redes neuronales artificiales capacitadas para monitorear y predecir el comportamiento de un clúster de computación científica, donde los torrentes de números se crujen constantemente. El objetivo es ayudar a los administradores del sistema a identificar y responder rápidamente a trabajos informáticos problemáticos, reduciendo el tiempo de inactividad para los científicos que procesan datos de sus experimentos.
En un estilo casi espectacular de moda, estos modelos de aprendizaje automático (ML) se considera que verá cuál es el más adecuado para las demandas de conjuntos de datos en constante cambio de los programas experimentales. Pero a diferencia de la exitosa serie de televisión de realidad «America’s Next Top Model» y sus spin -offs internacionales, no lleva una temporada completa elegir un ganador. En este concurso, un nuevo «modelo campeón» se corona cada 24 horas en función de su capacidad para aprender de los datos nuevos.
«Estamos tratando de comprender las características de nuestros grupos de computación que no hemos visto antes», dijo Bryan Hess, gerente de operaciones de computación científica de Jefferson Lab e investigador principal, o juez, por así decirlo, en el estudio. «Está mirando el centro de datos de una manera más holística, y en el futuro, será una especie de modelo de IA o ML».
Si bien estos modelos no ganan ninguna sesión de fotos deslumbrante, la proyecto recientemente tomó el centro de atención en Software IEEE como parte de una edición especial dedicada al aprendizaje automático en las operaciones del centro de datos (MLOPS).
Los resultados del estudio podrían tener grandes implicaciones para la gran ciencia.
El cumquibus
Los instrumentos científicos a gran escala, como aceleradores de partículas, fuentes de luz y radiotelescopios, son instalaciones de DOE críticas que permiten el descubrimiento científico. En Jefferson Lab, es la Instalación Continua de Acelerador de Beam Electron (CEBAF), una instalación de usuario de la Oficina de Ciencias del DOE en la que se basa una comunidad global de más de 1.650 físicos nucleares.
Los detectores experimentales en Jefferson Lab recopilan firmas débiles de pequeñas partículas que se originan en los haces de electrones CEBAF. Debido a que CEBAF produce haz 24/7, esas señales se traducen en montañas de datos. La información recopilada es del orden de decenas de petabytes por año. Eso es suficiente para llenar el disco duro de una computadora portátil promedio aproximadamente una vez por minuto.
Las interacciones de partículas se procesan y analizan en el centro de datos de Jefferson Lab utilizando grupos informáticos de alto rendimiento con software adaptado a cada experimento.
Entre las luces parpadeantes y los cables agrupados, los trabajos complejos que requieren varios procesadores (núcleos) son la norma. La naturaleza fluida de estas cargas de trabajo significa muchas partes móviles, y más cosas que podrían salir mal.
Ciertos trabajos de cómputo o problemas de hardware pueden dar lugar a un comportamiento de clúster inesperado, denominado «anomalías». Pueden incluir el fragmento de memoria o los exceso de compromisos de entrada/salida, lo que resulta en retrasos para los científicos.
«Cuando los clústeres de cálculo se hacen más grandes, se vuelve difícil para los administradores del sistema realizar un seguimiento de todos los componentes que podrían ir mal», dijo Ahmed Hossam Mohammed, investigador postdoctoral en Jefferson Lab e investigador en el estudio. «Queríamos automatizar este proceso con un modelo que flashee una luz roja cada vez que sucede algo extraño.
«De esa manera, los administradores del sistema pueden tomar medidas antes de que las condiciones se deterioren aún más».
Un enfoque de Didact-IC
Para abordar estos desafíos, el grupo desarrolló un sistema de gestión basado en ML llamado Didact (Digital Data Center Twin). El acrónimo es una obra de teatro sobre la palabra «didáctica», que describe algo que está diseñado para enseñar. En este caso, está enseñando redes neuronales artificiales.
Didact es un programa que proporciona los recursos para que el personal de laboratorio busque proyectos que puedan hacer contribuciones rápidas y significativas a los problemas críticos de la ciencia y la tecnología nacionales de relevancia de la misión y/o avanzar en las capacidades científicas y técnicas básicas del laboratorio.
El sistema Didact está diseñado para detectar anomalías y diagnosticar su fuente utilizando un enfoque de IA llamado aprendizaje continuo.
En el aprendizaje continuo, los modelos ML están entrenados en datos que llegan de forma incremental, similar al aprendizaje permanente experimentado por personas y animales. El equipo de Didact entrena múltiples modelos de esta manera, cada uno representando la dinámica del sistema de los trabajos informáticos activos, luego selecciona el mejor desempeño en función de los datos de ese día.
Los modelos son variaciones de redes neuronales no supervisadas llamadas autoencoders. Uno está equipado con una red neuronal gráfica (GNN), que analiza las relaciones entre componentes.
«Compiten utilizando datos conocidos para determinar cuál tenía un error más bajo», dijo Diana McSpadden, científica de datos de Jefferson Lab y liderado en el estudio MLOPS. «Lo que ganó ese día sería el ‘Campeón diario’. «
El método podría algún día ayudar a reducir el tiempo de inactividad en los centros de datos y optimizar los recursos críticos, lo que significa costos más bajos y una mejor ciencia.
Así es como funciona.
El siguiente modelo superior
Para capacitar a los modelos sin afectar las necesidades de cálculo del día a día, el equipo de Didact desarrolló un clúster de la cama de prueba llamado «Sandbox». Piense en el sandbox como una pista donde se califican los modelos, en este caso en función de su capacidad para entrenar.
El software Didact es un conjunto de código de código abierto y personalizado utilizado para desarrollar y administrar modelos ML, monitorear el clúster Sandbox y escribir los datos. Todos esos números se visualizan en un tablero gráfico.
El sistema incluye tres tuberías para el «talento» de ML. Uno es para el desarrollo fuera de línea, como un ensayo general. Otro es para el aprendizaje continuo, donde tiene lugar la competencia en vivo. Cada vez que emerge un nuevo modelo superior, se convierte en el monitor principal del comportamiento del clúster en la tubería en tiempo real, hasta que el ganador del día siguiente lo atribuye.
«Didact representa una costura creativa de hardware y software de código abierto», dijo Hess, quien también es el arquitecto de infraestructura para el centro de instalaciones de datos de alto rendimiento que se está construyendo en Jefferson Lab en asociación con el Laboratorio Nacional Lawrence Berkeley de DOE. «Es una combinación de cosas que normalmente no se reuniría, y hemos demostrado que puede funcionar. Realmente se basa en la fuerza de la experiencia de las operaciones de ciencia y informática de Jefferson Lab».
En futuros estudios, el equipo de Didact desea explorar un marco de ML que optimiza el uso de energía de un centro de datos, ya sea reduciendo el flujo de agua utilizado en el enfriamiento o estrangulando los núcleos en función de las demandas de procesamiento de datos.
«El objetivo siempre es proporcionar más golpes para el dinero», dijo Hess, «más ciencia para el dólar».
Más información:
Diana McSpadden et al, estableciendo operaciones de aprendizaje automático para el aprendizaje continuo en los grupos de computación: un marco para monitorear y optimizar el comportamiento del clúster, Software IEEE (2024). Doi: 10.1109/ms.2024.3424256
Citación: Siguiente modelo superior: el estudio de IA basado en la competencia tiene como objetivo reducir los costos de los centros de datos (2025, 28 de febrero) Recuperado el 28 de febrero de 2025 de https://techxplore.com/news/2025-02-Competition-ai-aiMs-center.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.