Anunciamos el servicio de computación paralela de AWS para ejecutar cargas de trabajo de HPC a prácticamente cualquier escala | Amazon Web Services

Hoy anunciamos AWS Parallel Computing Service (AWS PCS), un nuevo servicio administrado que ayuda a los clientes a configurar y administrar clústeres de computación de alto rendimiento (HPC) para que ejecuten sin problemas sus simulaciones a prácticamente cualquier escala en AWS. ronroneo Programador, pueden trabajar en un entorno HPC familiar, acelerando su tiempo para obtener resultados en lugar de preocuparse por la infraestructura.

En noviembre de 2018, presentamos AWS ParallelCluster, una herramienta de administración de clústeres de código abierto compatible con AWS que lo ayuda a implementar y administrar clústeres de HPC en la nube de AWS. Con AWS ParallelCluster, los clientes también pueden crear e implementar rápidamente entornos informáticos de HPC de prueba de concepto y producción. Pueden usar la interfaz de línea de comandos, API, biblioteca Python y la interfaz de usuario de AWS ParallelCluster instalada desde paquetes de código abierto. Son responsables de las actualizaciones, que pueden incluir el desmantelamiento y la reimplementación de clústeres. Sin embargo, muchos clientes nos han pedido un servicio de AWS completamente administrado para eliminar trabajos operativos en la creación y operación de entornos de HPC.

AWS PCS simplifica los entornos de HPC administrados por AWS y se puede acceder a ellos a través de AWS Management Console, AWS SDK y AWS Command-Line Interface (AWS CLI). Los administradores de su sistema pueden crear clústeres de Slurm administrados que utilicen sus configuraciones de computación y almacenamiento, identidad y preferencias de asignación de trabajos. AWS PCS utiliza Slurm, un programador de trabajos altamente escalable y tolerante a fallas que se utiliza en una amplia gama de clientes de HPC para programar y orquestar simulaciones. Los usuarios finales, como científicos, investigadores e ingenieros, pueden iniciar sesión en los clústeres de AWS PCS para ejecutar y administrar trabajos de HPC, utilizar software interactivo en escritorios virtuales y acceder a los datos. Puede llevar sus cargas de trabajo a AWS PCS rápidamente, sin un esfuerzo significativo para portar el código.

Puede utilizar escritorios remotos NICE DCV totalmente administrados para visualización remota y acceder a la telemetría de trabajos o registros de aplicaciones para permitir que los especialistas administren sus flujos de trabajo de HPC en un solo lugar.

AWS PCS está diseñado para una amplia gama de cargas de trabajo científicas y de ingeniería, tradicionales y emergentes, con uso intensivo de datos o de computación, en áreas como dinámica de fluidos computacional, modelado meteorológico, análisis de elementos finitos, automatización de diseño electrónico y simulaciones de yacimientos utilizando formas familiares de preparar, ejecutar y analizar simulaciones y cálculos.

Introducción al servicio de computación paralela de AWS
Para probar AWS PCS, puede utilizar nuestro tutorial para crear un clúster simple en la documentación de AWS. Primero, cree una nube privada virtual (VPC) con una plantilla de AWS CloudFormation y almacenamiento compartido en Amazon Elastic File System (Amazon EFS) dentro de su cuenta para la región de AWS donde probará AWS PCS. Para obtener más información, visite Crear una VPC y Crear almacenamiento compartido en la documentación de AWS.

1. Crear un clúster
En la consola de AWS PCS, seleccione Crear clusterun recurso persistente para administrar recursos y ejecutar cargas de trabajo.

A continuación, ingrese el nombre de su clúster y elija el tamaño del controlador de su programador Slurm. Puede elegir Pequeño (hasta 32 nodos y 256 trabajos), Medio (hasta 512 nodos y 8.192 trabajos), o Grande (hasta 2048 nodos y 16 384 trabajos) para los límites de cargas de trabajo del clúster. Redes sección, elija la VPC creada, la subred para iniciar el clúster y el grupo de seguridad aplicado a su clúster.

De manera opcional, puede establecer la configuración de Slurm, como un tiempo de inactividad antes de que los nodos de cómputo se reduzcan, un directorio de scripts Prolog y Epilog en los nodos de cómputo iniciados y un parámetro de algoritmo de selección de recursos utilizado por Slurm.

Elegir Crear clusterEl aprovisionamiento del clúster demora algún tiempo.

2. Crear grupos de nodos de cómputo
Después de crear el clúster, puede crear grupos de nodos de cómputo, una colección virtual de instancias de Amazon Elastic Compute Cloud (Amazon EC2) que AWS PCS utiliza para proporcionar acceso interactivo a un clúster o ejecutar trabajos en un clúster. Cuando define un grupo de nodos de cómputo, especifica características comunes como tipos de instancias de EC2, recuento mínimo y máximo de instancias, subredes de VPC de destino, Amazon Machine Image (AMI), opción de compra y configuración de lanzamiento personalizada. Los grupos de nodos de cómputo requieren un perfil de instancia para pasar una función de AWS Identity and Access Management (IAM) a una instancia de EC2 y una plantilla de lanzamiento de EC2 que AWS PCS utiliza para configurar las instancias de EC2 que lanza. Para obtener más información, visite Crear una plantilla de lanzamiento y Crear un perfil de instancia en la documentación de AWS.

Para crear un grupo de nodos de cómputo en la consola, vaya a su clúster y elija el Grupos de nodos de cómputo pestaña y la Crear un grupo de nodos de cómputo botón.

Puede crear dos grupos de nodos de cómputo: un grupo de nodos de inicio de sesión al que accederán los usuarios finales y un grupo de nodos de trabajo para ejecutar trabajos de HPC.

Para crear un grupo de nodos de cómputo que ejecute trabajos de HPC, ingrese un nombre de nodo de cómputo y seleccione una plantilla de inicio de EC2, un perfil de instancia de IAM y subredes previamente creados para iniciar nodos de cómputo en su VPC de clúster.

A continuación, elija los tipos de instancia EC2 que prefiera utilizar al iniciar nodos de cómputo y la cantidad mínima y máxima de instancias para escalar. Elegí hpc6a.48xlarge El tipo de instancia y la escala se limitan a ocho instancias. Para un nodo de inicio de sesión, puede elegir una instancia más pequeña, como una c6i.xlarge instancia. También puede elegir la Bajo demanda o Lugar Opción de compra de EC2 si el tipo de instancia lo admite. Opcionalmente, puede elegir una AMI específica.

Elegir CrearEl aprovisionamiento del grupo de nodos de cómputo lleva un tiempo. Para obtener más información, visite Crear un grupo de nodos de cómputo para ejecutar trabajos y Crear un grupo de nodos de cómputo para nodos de inicio de sesión en la documentación de AWS.

3. Crea y ejecuta tus trabajos de HPC
Después de crear los grupos de nodos de cómputo, envía un trabajo a una cola para ejecutarlo. El trabajo permanece en la cola hasta que AWS PCS lo programa para que se ejecute en un grupo de nodos de cómputo, según la capacidad aprovisionada disponible. Cada cola está asociada con uno o más grupos de nodos de cómputo, que proporcionan las instancias EC2 necesarias para realizar el procesamiento.

Para crear una cola en la consola, vaya a su clúster y elija la opción Colas pestaña y la Crear cola botón.

Ingrese el nombre de su cola y elija los grupos de nodos de cómputo asignados a su cola.

Elegir Crear y esperar mientras se crea la cola.

Cuando el grupo de nodos de cómputo de inicio de sesión está activo, puede usar AWS Systems Manager para conectarse a la instancia EC2 que creó. Vaya a la consola de Amazon EC2 y elija su instancia EC2 del grupo de nodos de cómputo de inicio de sesión. Para obtener más información, visite Crear una cola para enviar y administrar trabajos y Conectarse a su clúster en la documentación de AWS.

Para ejecutar un trabajo con Slurm, debe preparar un script de envío que especifique los requisitos del trabajo y enviarlo a una cola con el sbatch Comando. Normalmente, esto se hace desde un directorio compartido, de modo que los nodos de inicio de sesión y de cómputo tengan un espacio común para acceder a los archivos.

También puede ejecutar un trabajo de interfaz de paso de mensajes (MPI) en AWS PCS mediante Slurm. Para obtener más información, visite Ejecutar un trabajo de un solo nodo con Slurm o Ejecutar un trabajo MPI de varios nodos con Slurm en la documentación de AWS.

Puede conectar un escritorio remoto NICE DCV totalmente administrado para visualización. Para comenzar, use la plantilla CloudFormation de Recetas de HPC para el repositorio de GitHub de AWS.

En este ejemplo, utilicé el Espuma abierta Simulación de motocicleta para calcular el flujo constante alrededor de una motocicleta y un conductor. Esta simulación se ejecutó con 288 núcleos de tres instancias hpc6a. El resultado se puede visualizar en la ParaView sesión después de iniciar sesión en la interfaz web de la instancia DCV.

Por último, una vez que haya finalizado los trabajos de HPC con los grupos de nodos y clústeres que creó, debe eliminar los recursos que creó para evitar cargos innecesarios. Para obtener más información, visite Eliminar sus recursos de AWS en la documentación de AWS.

Cosas que debes saber
Aquí hay un par de cosas que debes saber sobre esta función:

Versiones de Slurm – AWS PCS inicialmente es compatible con Slurm 23.11 y ofrece mecanismos diseñados para permitir que los clientes actualicen sus versiones principales de Slurm una vez que se agreguen nuevas versiones. Además, AWS PCS está diseñado para actualizar automáticamente el controlador de Slurm con versiones de parches. Para obtener más información, visite Versiones de Slurm en la documentación de AWS.
Reservas de capacidad – Puede reservar capacidad de EC2 en una zona de disponibilidad específica y durante un período específico mediante las reservas de capacidad a pedido para asegurarse de tener la capacidad de cómputo necesaria disponible cuando la necesite. Para obtener más información, visite Reservas de capacidad en la documentación de AWS.
Sistemas de archivos de red – Puede adjuntar volúmenes de almacenamiento de red en los que se puedan escribir y acceder datos y archivos, incluidos Amazon FSx para NetApp ONTAP, Amazon FSx para OpenZFS y Amazon File Cache, así como Amazon EFS y Amazon FSx para Lustre. También puede utilizar volúmenes autoadministrados, como servidores NFS. Para obtener más información, visite Sistemas de archivos de red en la documentación de AWS.

Ya disponible
El servicio de computación paralela de AWS ahora está disponible en las regiones Este de EE. UU. (Norte de Virginia), AWS Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón), Asia Pacífico (Singapur), Asia Pacífico (Sídney), Asia Pacífico (Tokio), Europa (Frankfurt), Europa (Irlanda) y Europa (Estocolmo).

AWS PCS lanza todos los recursos de su cuenta de AWS. Se le facturará de forma adecuada por esos recursos. Para obtener más información, consulte la página de precios de AWS PCS.

Pruébelo y envíe comentarios a AWS re:Publicación o a través de sus contactos habituales de soporte de AWS.

— Channy

PS Un agradecimiento especial a Mateo Vaughnun defensor principal de desarrolladores en AWS por su contribución en la creación de un entorno de pruebas de HPC.

Fuente

Prepárese para el iPhone SE 4 sin rayos con precios bajos en el equipo de carga de Apple USB-C

Legacy of Kain: Soul Reaver 1 y 2 Remastered Deluxe Physical Edition se ve increíble

La alineación del iPhone 17 se rumoreaba que admite hasta 35 W velocidades de carga

Hyperos 2.1 Llegando a Xiaomi 14 Ultra con muchas mejoras

El juego de vampiros del director de Witcher 3 podría ser una succión literal de tiempo

La desinformación creada por AI podría derribar a los bancos

Anunciamos el servicio de computación paralela de AWS para ejecutar cargas de trabajo de HPC a prácticamente cualquier escala | Amazon Web Services

AWS Weekly Roundup: AWS Developer Day, Trust Center, bien arquitectado para empresas y más (17 de febrero de 2025) | Servicios web de Amazon

Los eventos de actividad de la red de AWS CloudTrail para puntos finales VPC ahora generalmente están disponibles | Servicios web de Amazon

AWS Weekly Roundup: AWS Step Functions, AWS CloudFormation, Amazon Q desarrollador y más (10 de febrero de 2024) | Servicios web de Amazon

AWS CodeBuild para MacOS agrega soporte para FastLane | Servicios web de Amazon

AWS Weekly Roundup: Deepseek-R1, metadatos S3, actualizaciones elásticas de frijoles y más (3 de febrero de 2024) | Servicios web de Amazon

Deepseek-r1 modelos ahora disponibles en AWS | Servicios web de Amazon

Deja una respuestaCancelar la respuesta

Apple Intelligence obliga a Apple a darnos finalmente lo que queremos: más RAM

¿El cobro por congestión tendrá un costo para la privacidad?