in

Amazon SageMaker HyperPod presenta compatibilidad con Amazon EKS | Amazon Web Services

Hoy, nos complace anunciar la compatibilidad de Amazon Elastic Kubernetes Service (EKS) con Amazon SageMaker HyperPod: una infraestructura diseñada específicamente con resiliencia en su núcleo para el desarrollo del modelo de base (FM). Esta nueva capacidad permite a los clientes orquestar clústeres de HyperPod utilizando EKS, combinando el poder de Kubernetes con el entorno resistente de Amazon SageMaker HyperPod diseñado para entrenar modelos grandes. Amazon SageMaker HyperPod ayuda a escalar de manera eficiente en más de mil aceleradores de inteligencia artificial (IA), lo que reduce el tiempo de entrenamiento hasta en un 40 %.

Amazon SageMaker HyperPod ahora permite a los clientes administrar sus clústeres mediante una interfaz basada en Kubernetes. Esta integración permite cambiar sin problemas entre Slurm y Amazon EKS para optimizar varias cargas de trabajo, como entrenamiento, ajuste, experimentación e inferencia. El complemento CloudWatch Observability EKS proporciona capacidades de monitoreo integrales, que ofrecen información sobre CPU, red, disco y otras métricas de nodo de bajo nivel en un panel unificado. Esta capacidad de observación mejorada se extiende a la utilización de recursos en todo el clúster, métricas a nivel de nodo, rendimiento a nivel de pod y datos de utilización específicos de contenedor, lo que facilita la resolución de problemas y la optimización eficientes.

Amazon SageMaker HyperPod, que se lanzó en re:Invent 2023, se ha convertido en una solución de referencia para las empresas emergentes y las empresas de inteligencia artificial que buscan entrenar e implementar modelos a gran escala de manera eficiente. Es compatible con las bibliotecas de entrenamiento distribuidas de SageMaker, que ofrecen optimizaciones de software Model Parallel y Data Parallel que ayudan a reducir el tiempo de entrenamiento hasta en un 20 %. SageMaker HyperPod detecta y repara o reemplaza automáticamente las instancias defectuosas, lo que permite a los científicos de datos entrenar modelos sin interrupciones durante semanas o meses. Esto permite que los científicos de datos se concentren en el desarrollo de modelos, en lugar de administrar la infraestructura.

La integración de Amazon EKS con Amazon SageMaker HyperPod aprovecha las ventajas de Kubernetes, que se ha vuelto popular para las cargas de trabajo de aprendizaje automático (ML) debido a su escalabilidad y sus herramientas de código abierto enriquecidas. Las organizaciones suelen estandarizar Kubernetes para crear aplicaciones, incluidas las necesarias para los casos de uso de IA generativa, ya que permite la reutilización de capacidades en todos los entornos y, al mismo tiempo, cumple con los estándares de cumplimiento y gobernanza. El anuncio de hoy permite a los clientes escalar y optimizar la utilización de recursos en más de mil aceleradores de IA. Esta flexibilidad mejora la experiencia del desarrollador, la gestión de aplicaciones en contenedores y el escalamiento dinámico para las cargas de trabajo de inferencia y entrenamiento de FM.

La compatibilidad de Amazon EKS en Amazon SageMaker HyperPod fortalece la resiliencia a través de controles de estado profundos, recuperación automatizada de nodos y capacidades de reanudación automática de trabajos, lo que garantiza un entrenamiento ininterrumpido para trabajos a gran escala o de larga duración. La gestión de trabajos se puede optimizar con la función opcional Interfaz de línea de comandos de HyperPoddiseñado para entornos Kubernetes, aunque los clientes también pueden usar sus propias herramientas CLI. La integración con Amazon CloudWatch Container Insights proporciona una capacidad de observación avanzada, lo que ofrece información más detallada sobre el rendimiento, el estado y la utilización del clúster. Además, los científicos de datos pueden usar herramientas como Kubeflow para flujos de trabajo de ML automatizados. La integración también incluye MLflow administrado por Amazon SageMaker, lo que proporciona una solución sólida para el seguimiento de experimentos y la gestión de modelos.

En un nivel alto, el clúster HyperPod de Amazon SageMaker es creado por el administrador de la nube mediante la API del clúster HyperPod y es administrado completamente por el servicio HyperPod, lo que elimina el trabajo pesado indiferenciado que implica la creación y optimización de la infraestructura de ML. Amazon EKS se utiliza para orquestar estos nodos HyperPod, de manera similar a cómo Slurm orquesta los nodos HyperPod, lo que brinda a los clientes una experiencia de administrador familiar basada en Kubernetes.

Exploremos cómo comenzar a utilizar el soporte de Amazon EKS en Amazon SageMaker HyperPod
Comienzo preparando el escenario, verificando los requisitos previos y creando un clúster de Amazon EKS con una única pila de AWS CloudFormation siguiendo el taller de Amazon SageMaker HyperPod EKS, configurado con VPC y recursos de almacenamiento.

Para crear y administrar clústeres de Amazon SageMaker HyperPod, puedo usar la consola de administración de AWS o la interfaz de línea de comandos de AWS (AWS CLI). Con la AWS CLI, especifico la configuración de mi clúster en un archivo JSON. Elijo el clúster de Amazon EKS creado anteriormente como orquestador del clúster de SageMaker HyperPod. Luego, creo los nodos de trabajo del clúster que llamo «worker-group-1», con un nodo de trabajo privado. Subnet, NodeRecovery empezar a Automatic para habilitar la recuperación automática del nodo y para OnStartDeepHealthChecks Yo agrego InstanceStress y InstanceConnectivity para permitir controles de salud profundos.

cat > eli-cluster-config.json 

Puede agregar InstanceStorageConfigs para aprovisionar y montar volúmenes de Amazon EBS adicionales en nodos HyperPod.

Para crear el clúster utilizando las API de SageMaker HyperPod, ejecuto el siguiente comando de AWS CLI:

aws sagemaker create-cluster \ 
--cli-input-json file://eli-cluster-config.json

El comando AWS devuelve el ARN del nuevo clúster HyperPod.

{
"ClusterArn": "arn:aws:sagemaker:us-east-2:ACCOUNT-ID:cluster/wccy5z4n4m49"
}

Luego verifico el estado del clúster HyperPod en la consola SageMaker y espero hasta que el estado cambie a InService.

Alternativamente, puede verificar el estado del clúster utilizando la AWS CLI ejecutando el describe-cluster dominio:

aws sagemaker describe-cluster --cluster-name my-hyperpod-cluster

Una vez que el clúster esté listo, puedo acceder a los nodos del clúster de SageMaker HyperPod. Para la mayoría de las operaciones, puedo usar kubectl Comandos para administrar recursos y trabajos desde mi entorno de desarrollo, utilizando toda la potencia de la orquestación de Kubernetes y aprovechando la infraestructura administrada de SageMaker HyperPod. En esta ocasión, para la resolución avanzada de problemas o el acceso directo a los nodos, utilizo AWS Systems Manager (SSM) para iniciar sesión en nodos individuales, siguiendo las instrucciones de la página Acceda a los nodos del clúster de SageMaker HyperPod.

Para ejecutar trabajos en el clúster de SageMaker HyperPod organizado por EKS, sigo los pasos que se describen en la página Ejecutar trabajos en el clúster de SageMaker HyperPod a través de Amazon EKS. Puede usar la CLI de HyperPod y la interfaz nativa kubectl Comando para buscar clústeres HyperPod disponibles y enviar trabajos de entrenamiento (Pods). Para administrar experimentos de ML y ejecuciones de entrenamiento, puede usar Operador de capacitación de Kubeflow, Kueue y MLflow administrado por Amazon SageMaker.

Finalmente, en la consola de SageMaker, puedo ver el Estado y Versión de Kubernetes de clústeres EKS agregados recientemente, lo que proporciona una descripción general completa de mi entorno SageMaker HyperPod.

Además, puedo supervisar el rendimiento del clúster y obtener información sobre su estado mediante Amazon CloudWatch Container.

Cosas que debes saber
A continuación, se detallan algunos aspectos clave que debe conocer sobre la compatibilidad de Amazon EKS en Amazon SageMaker HyperPod:

Entorno resiliente – Esta integración proporciona un entorno de entrenamiento más resistente con comprobaciones de estado exhaustivas, recuperación automática de nodos y reanudación automática de trabajos. SageMaker HyperPod detecta, diagnostica y se recupera automáticamente de los fallos, lo que le permite entrenar continuamente los modelos básicos durante semanas o meses sin interrupciones. Esto puede reducir el tiempo de entrenamiento hasta en un 40 %.

Observabilidad de GPU mejorada Amazon CloudWatch Container Insights proporciona métricas y registros detallados de sus aplicaciones y microservicios en contenedores. Esto permite un monitoreo integral del rendimiento y el estado del clúster.

Herramienta fácil de usar para científicos – Este lanzamiento incluye una CLI de HyperPod personalizada para la gestión de trabajos, operadores de capacitación de Kubeflow para capacitación distribuida, Kueue para la programación e integración con SageMaker Managed MLflow para el seguimiento de experimentos. También funciona con las bibliotecas de capacitación distribuidas de SageMaker, que brindan optimizaciones de Model Parallel y Data Parallel para reducir significativamente el tiempo de capacitación. Estas bibliotecas, combinadas con la reanudación automática de trabajos, permiten una capacitación eficiente e ininterrumpida de modelos grandes.

Utilización flexible de recursos – Esta integración mejora la experiencia del desarrollador y la escalabilidad de las cargas de trabajo de FM. Los científicos de datos pueden compartir de manera eficiente la capacidad de cómputo entre las tareas de entrenamiento e inferencia. Puede usar sus clústeres de Amazon EKS existentes o crear y conectar otros nuevos al cómputo de HyperPod, y traer sus propias herramientas para el envío, la puesta en cola y la supervisión de trabajos.

Para comenzar a utilizar Amazon SageMaker HyperPod en Amazon EKS, puede explorar recursos como el taller SageMaker HyperPod EKS, el proyecto aws-do-hyperpody el Proyecto de capacitación distribuida impresionanteEsta versión está disponible de forma general en las regiones de AWS donde Amazon SageMaker HyperPod está disponible, excepto Europa (Londres). Para obtener información sobre precios, visite la página de precios de Amazon SageMaker.

Esta entrada del blog fue el resultado de un esfuerzo colaborativo. Quisiera agradecer a Manoj Ravi, Adhesh Garg, Tomonori Shimomura, Alex Iankoulski, Anoop Saha y a todo el equipo por sus importantes contribuciones a la hora de recopilar y perfeccionar la información presentada aquí. Su experiencia colectiva fue crucial para crear este artículo completo.

Elí.

Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

El Apple Watch Series 10 tiene el mismo sensor cardíaco que el Series 9

Internet reacciona al precio de 700 dólares de la PS5 Pro

Internet reacciona al precio de 700 dólares de la PS5 Pro