in

Amazon FSx for Lustre aumenta el rendimiento de las instancias de GPU hasta 12 veces | Servicios web de Amazon

Hoy anunciamos compatibilidad con Elastic Fabric Adapter (EFA) y Almacenamiento directo NVIDIA GPU (GDS) en Amazon FSx para Lustre. EFA es una interfaz de red para instancias de Amazon EC2 que permite ejecutar aplicaciones que requieren altos niveles de comunicaciones entre nodos a escala. GDS es una tecnología que crea una ruta de datos directa entre el almacenamiento local o remoto y la memoria de la GPU. Con estas mejoras, Amazon FSx for Lustre con soporte EFA/GDS proporciona un rendimiento por cliente hasta 12 veces mayor (hasta 1200 Gbps) en comparación con la versión anterior de FSx for Lustre.

Puede utilizar FSx for Lustre para crear y ejecutar las aplicaciones que exigen más rendimiento, como capacitación en aprendizaje profundo, descubrimiento de fármacos, modelado financiero y desarrollo de vehículos autónomos. A medida que los conjuntos de datos crecen y surgen nuevas tecnologías, puede adoptar instancias de GPU y HPC cada vez más potentes, como Amazon EC2 P5, Trn1 y Hpc7a. Hasta ahora, al acceder a FSx para sistemas de archivos Lustre, el uso de redes TCP tradicionales limitaba el rendimiento a 100 Gbps para instancias de clientes individuales. Esta adopción está impulsando la necesidad de que los sistemas de archivos FSx para Lustre proporcionen el rendimiento necesario para utilizar de manera óptima el creciente ancho de banda de la red de estas instancias EC2 de vanguardia al acceder a grandes conjuntos de datos.

Con la compatibilidad con EFA y GDS en FSx para Lustre, ahora puede lograr un rendimiento de hasta 1200 Gbps por instancia de cliente (doce veces más rendimiento que antes) cuando utiliza instancias de GPU P5 y NVIDIA CUDA en sus aplicaciones.

Con esta nueva capacidad, puede utilizar plenamente el ancho de banda de la red de las instancias informáticas más potentes y acelerar sus cargas de trabajo de aprendizaje automático (ML) y HPC. EFA mejora el rendimiento al omitir el sistema operativo y utilizar la Protocolo de datagrama confiable escalable (SRD) de AWS para optimizar la transferencia de datos. GDS mejora aún más el rendimiento al permitir la transferencia directa de datos entre el sistema de archivos y la memoria de la GPU, sin pasar por la CPU y eliminando copias de memoria redundantes.

Veamos cómo funciona esto en la práctica.

Creación de un sistema de archivos de Amazon FSx para Lustre con EFA habilitado
Para comenzar, en la consola de Amazon FSx, elijo Crear sistema de archivos y luego Amazon FSx para brillo.

Introduzco un nombre para el sistema de archivos. En el Tipo de implementación y almacenamiento sección, selecciono Persistente, SSD y el nuevo con EFA habilitado opción. yo selecciono 1000 MB/s/TiB en el Rendimiento por unidad de almacenamiento sección. Con esta configuración, ingreso 4,8 TiB para Capacidad de almacenamientoque es el mínimo admitido con esta configuración.

Captura de pantalla de la consola.

Para la creación de redes, utilizo la nube privada virtual (VPC) predeterminada y un grupo de seguridad habilitado para EFA. Dejo todas las demás opciones con sus valores predeterminados.

Captura de pantalla de la consola.

Reviso todas las opciones y procedo a crear el sistema de archivos. Después de unos minutos, el sistema de archivos está listo para usarse.

Montaje de un sistema de archivos Amazon FSx for Lustre con EFA habilitado desde una instancia Amazon EC2
En la consola de Amazon EC2, elijo Instancia de lanzamientoingrese un nombre para la instancia y seleccione la imagen de máquina de Amazon de Ubuntu (AMI). Para tipo de instanciaselecciono trn1.32xgrande.

Captura de pantalla de la consola.

En Configuración de rededito la configuración predeterminada y selecciono la misma subred utilizada por el sistema de archivos FSx Lustre. En Firewall (grupos de seguridad)selecciono tres grupos de seguridad existentes: el grupo de seguridad habilitado para EFA utilizado por el sistema de archivos FSx for Lustre, el grupo de seguridad predeterminado y un grupo de seguridad que proporciona acceso Secure Shell (SSH).

Captura de pantalla de la consola.

En Configuración de red avanzadaselecciono ENA y EFÁ como Tipo de interfaz. Sin esta configuración, la instancia utilizaría la red TCP tradicional y la conexión con el sistema de archivos FSx for Lustre aún estaría limitada a 100 Gbps de rendimiento.

Captura de pantalla de la consola.

Para tener un mayor rendimiento, puedo agregar más interfaces de red EFA, según el tipo de instancia.

Lanzo la instancia y, cuando está lista, me conecto usando EC2 Instance Connect y sigo las instrucciones para instalar el cliente Lustre en la Guía del usuario de FSx for Lustre y configurar clientes EFA.

Luego, sigo las instrucciones para montar un sistema de archivos FSx para Lustre desde una instancia EC2.

Creo una carpeta para usar como punto de montaje:

Selecciono el sistema de archivos en la consola FSx y busco el nombre DNS y Nombre de montaje. Usando estos valores, monto el sistema de archivos:

sudo mount -t lustre -o relatime,flock file_system_dns_name@tcp:/mountname /fsx

EFA se utiliza automáticamente cuando accede a un sistema de archivos habilitado para EFA desde instancias de cliente que admiten EFA y utilizan Lustre versión 2.15 o superior.

Cosas que debes saber
La compatibilidad con EFA y GDS está disponible hoy sin costo adicional en los nuevos sistemas de archivos Amazon FSx para Lustre en todas las regiones de AWS donde se ofrece persistente 2. FSx for Lustre utiliza automáticamente EFA cuando los clientes acceden a un sistema de archivos habilitado para EFA desde instancias de cliente que admiten EFA, sin requerir ninguna configuración adicional. Para obtener una lista de instancias de cliente EC2 que admiten EFA, consulte tipos de instancias admitidas en la Guía del usuario de Amazon EC2. Esta tabla de especificaciones de red describe los anchos de banda de la red y la compatibilidad con EFA, por ejemplo, tipos de instancia en la categoría de computación acelerada.

Para usar instancias habilitadas para EFA con FSx para sistemas de archivos Lustre, debe usar clientes Lustre 2.15 en Ubuntu 22.04 con kernel 6.8 o superior.

Tenga en cuenta que sus instancias de cliente y sus sistemas de archivos deben estar ubicados en la misma subred dentro de su conexión de Amazon Virtual Private Cloud (Amazon VPC).

GDS se admite automáticamente en sistemas de archivos habilitados para EFA. Para utilizar GDS con sus sistemas de archivos FSx para Lustre, necesita el Paquete NVIDIA Compute Unified Device Architecture (CUDA)el controlador NVIDIA de código abiertoy el Controlador de almacenamiento NVIDIA GPUDirect instalado en su instancia de cliente. Estos paquetes vienen preinstalados en la AMI de aprendizaje profundo de AWS. Luego puede usar su aplicación habilitada para CUDA para usar el almacenamiento GPUDirect para la transferencia de datos entre su sistema de archivos y las GPU.

Al planificar su implementación, tenga en cuenta que los sistemas de archivos habilitados para EFA tienen incrementos de capacidad de almacenamiento mínimo mayores que los sistemas de archivos que no están habilitados para EFA. Por ejemplo, si elige el nivel de rendimiento de 1000 MB/s/TiB, la capacidad mínima de almacenamiento para los sistemas de archivos habilitados para EFA comienza en 4,8 TiB en comparación con 1,2 TB para los sistemas de archivos FSx for Lustre que no habilitan EFA. Si desea migrar sus cargas de trabajo existentes, puede utilizar AWS DataSync para mover sus datos de un sistema de archivos existente a uno nuevo que admita EFA y GDS.

Para lograr la máxima flexibilidad, FSx for Lustre mantiene la compatibilidad con cargas de trabajo EFA y no EFA. Al acceder a un sistema de archivos habilitado para EFA, el tráfico de instancias de clientes que no son EFA fluye automáticamente a través de redes TCP/IP tradicionales utilizando Elastic Network Adapter (ENA), lo que permite un acceso perfecto para todas las cargas de trabajo sin ninguna configuración adicional.

Para obtener más información sobre la compatibilidad con EFA y GDS en FSx for Lustre, incluidas instrucciones de configuración detalladas y mejores prácticas, visite la documentación de Amazon FSx for Lustre. Comience hoy y experimente el rendimiento de almacenamiento más rápido disponible para sus instancias de GPU en la nube.

Danilo

Actualización 27/11: publicación actualizada para reflejar un rendimiento 12 veces mayor



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Olvídese del iMac Pro: esta oferta del Black Friday es aún mejor por cientos menos

Una captura de pantalla de After Inc. que muestra la interfaz de usuario amigable, estética brillante y exuberante del juego.

La secuela de Surprise Plague Inc. ya está disponible y se centra en la curación del mundo después del Apocalipsis