in

Maximice la utilización del acelerador para el desarrollo de modelos con el nuevo control de tareas HyperPod de Amazon SageMaker | Servicios web de Amazon

Hoy anunciamos la disponibilidad general de la gestión de tareas HyperPod de Amazon SageMaker, una nueva innovación para administrar y maximizar de manera fácil y centralizada la utilización de GPU y Trainium en tareas de desarrollo de modelos de IA generativa, como capacitación, ajuste e inferencia.

Los clientes nos dicen que están aumentando rápidamente la inversión en proyectos de IA generativa, pero enfrentan desafíos a la hora de asignar eficientemente recursos informáticos limitados. La falta de una gobernanza dinámica y centralizada para la asignación de recursos genera ineficiencias: algunos proyectos subutilizan los recursos mientras que otros se estancan. Esta situación sobrecarga a los administradores con una replanificación constante, provoca retrasos para los científicos y desarrolladores de datos y da como resultado una entrega tardía de innovaciones de IA y sobrecostos debido al uso ineficiente de los recursos.

Con la gestión de tareas de SageMaker HyperPod, puede acelerar el tiempo de comercialización de las innovaciones de IA y, al mismo tiempo, evitar los sobrecostos debido a recursos informáticos infrautilizados. Con unos pocos pasos, los administradores pueden configurar cuotas que rigen la asignación de recursos informáticos en función de los presupuestos del proyecto y las prioridades de las tareas. Los científicos o desarrolladores de datos pueden crear tareas como entrenamiento, ajuste o evaluación de modelos, que SageMaker HyperPod programa y ejecuta automáticamente dentro de las cuotas asignadas.

El gobierno de tareas de SageMaker HyperPod administra los recursos, liberando automáticamente la computación de tareas de menor prioridad cuando las de alta prioridad necesitan atención inmediata. Para ello, pausa las tareas de capacitación de baja prioridad, guarda los puntos de control y las reanuda más tarde, cuando hay recursos disponibles. Además, la computación inactiva dentro de la cuota de un equipo se puede utilizar automáticamente para acelerar las tareas en espera de otro equipo.

Los científicos y desarrolladores de datos pueden monitorear continuamente sus colas de tareas, ver las tareas pendientes y ajustar las prioridades según sea necesario. Los administradores también pueden monitorear y auditar las tareas programadas y calcular el uso de recursos entre equipos y proyectos y, como resultado, pueden ajustar las asignaciones para optimizar los costos y mejorar la disponibilidad de los recursos en toda la organización. Este enfoque promueve la finalización oportuna de proyectos críticos y al mismo tiempo maximiza la eficiencia de los recursos.

Primeros pasos con la gestión de tareas de SageMaker HyperPod
La gobernanza de tareas está disponible para clústeres de Amazon EKS en HyperPod. Encontrar Gestión de clústeres bajo Clústeres de HyperPod en la consola de Amazon SageMaker AI para aprovisionar y administrar clústeres. Como administrador, puede optimizar la operación y el escalado de los clústeres de HyperPod a través de esta consola.

Cuando eliges un clúster HyperPod, puedes ver un nuevo Panel, Tareasy Políticas en la página de detalles del clúster.

1. Nuevo panel de control
En el nuevo panel, puede ver una descripción general de la utilización del clúster, las métricas basadas en equipos y basadas en tareas.

En primer lugar, puede ver métricas tanto puntuales como basadas en tendencias para recursos informáticos críticos, incluidos GPU, vCPU y utilización de memoria, en todos los grupos de instancias.

A continuación, puede obtener información completa sobre la gestión de recursos específicos del equipo, centrándose en la utilización de GPU frente a la asignación de computación entre equipos. Puede utilizar filtros personalizables para equipos y grupos de instancias de clúster para analizar métricas como GPU/CPU asignadas para tareas, GPU/CPU prestadas y utilización de GPU/CPU.

También puede evaluar el rendimiento de las tareas y la eficiencia de la asignación de recursos utilizando métricas como el recuento de tareas en ejecución, pendientes y adelantadas, así como el tiempo promedio de ejecución y espera de las tareas. Para obtener una observabilidad integral de los componentes de software y los recursos del clúster HyperPod de SageMaker, puede integrarlos con Amazon CloudWatch Container Insights o Amazon Managed Grafana.

2. Cree y administre una política de clúster
Para habilitar la priorización de tareas y la asignación justa de recursos, puede configurar una política de clúster que priorice las cargas de trabajo críticas y distribuya la computación inactiva entre los equipos definidos en las asignaciones de computación.

Para configurar clases de prioridad y compartir equitativamente la computación prestada en la configuración del clúster, elija Editar en el Política de clúster sección.

Puede definir cómo se admiten las tareas que esperan en la cola para la priorización de tareas: Por orden de llegada por defecto o Clasificación de tareas. Cuando elige la clasificación de tareas, las tareas que esperan en la cola se admitirán en el orden de prioridad definido en esta política de clúster. Las tareas de la misma clase de prioridad se ejecutarán por orden de llegada.

También puede configurar cómo se asigna la computación inactiva entre los equipos: Por orden de llegada o reparto justo por defecto. La configuración de reparto justo permite a los equipos tomar prestado cómputo inactivo en función de sus ponderaciones asignadas, que se configuran en asignaciones de cómputo relativas. Esto permite que cada equipo obtenga una parte justa de la computación inactiva para acelerar sus tareas en espera.

En el Computar asignación sección de la Políticas En la página, puede crear y editar asignaciones de computación para distribuir recursos informáticos entre los equipos, habilitar configuraciones que permitan a los equipos prestar y tomar prestado computación inactiva, configurar la preferencia de sus propias tareas de baja prioridad y asignar ponderaciones de participación justa a los equipos.

En el Equipo sección, establezca un nombre de equipo y se creará un espacio de nombres de Kubernetes correspondiente para que lo utilicen sus equipos de ciencia de datos y aprendizaje automático (ML). Puede establecer un peso de reparto justo para una distribución más equitativa de la capacidad no utilizada entre sus equipos y habilitar la opción de preferencia según la prioridad de la tarea, lo que permite que las tareas de mayor prioridad se adelanten a las de menor prioridad.

En el Calcular sección, puede agregar y asignar cuotas de tipo de instancia a los equipos. Además, puede asignar cuotas para tipos de instancias que aún no están disponibles en el clúster, lo que permite una futura expansión.

Puede permitir que los equipos compartan recursos informáticos inactivos permitiéndoles prestar su capacidad no utilizada a otros equipos. Este modelo de préstamo es recíproco: los equipos solo pueden tomar prestado cómputo inactivo si también están dispuestos a compartir sus propios recursos no utilizados con otros. También puede especificar el límite de préstamo que permite a los equipos tomar prestados recursos informáticos por encima de su cuota asignada.

3. Ejecute su tarea de capacitación en el clúster SageMaker HyperPod
Como científico de datos, puedes enviar un trabajo de capacitación y utilizar la cuota asignada para tu equipo, utilizando el Interfaz de línea de comandos (CLI) de HyperPod dominio. Con la CLI de HyperPod, puede iniciar un trabajo y especificar el espacio de nombres correspondiente que tiene la asignación.

$ hyperpod start-job --name smpv2-llama2 --namespace hyperpod-ns-ml-engineers
Successfully created job smpv2-llama2
$ hyperpod list-jobs --all-namespaces
{
 "jobs": [
  {
   "Name": "smpv2-llama2",
   "Namespace": "hyperpod-ns-ml-engineers",
   "CreationTime": "2024-09-26T07:13:06Z",
   "State": "Running",
   "Priority": "fine-tuning-priority"
  },
  ...
 ]
}

En el Tareas pestaña, puede ver todas las tareas en su clúster. Cada tarea tiene diferente prioridad y necesidad de capacidad según su política. Si ejecuta otra tarea con mayor prioridad, la tarea existente se suspenderá y esa tarea podrá ejecutarse primero.

Bien, ahora veamos un vídeo de demostración que muestra lo que sucede cuando se agrega una tarea de entrenamiento de alta prioridad mientras se ejecuta una tarea de baja prioridad.

Para obtener más información, visite Gobernanza de tareas de SageMaker HyperPod en la Guía para desarrolladores de IA de Amazon SageMaker.

Ahora disponible
La gobernanza de tareas de Amazon SageMaker HyperPod ahora está disponible en las regiones de AWS Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio) y Oeste de EE. UU. (Oregón). Puede utilizar el gobierno de tareas de HyperPod sin costo adicional. Para obtener más información, visite la página del producto SageMaker HyperPod.

Pruebe la gestión de tareas de HyperPod en la consola de Amazon SageMaker AI y envíe comentarios a AWS re: Publicación para SageMaker o a través de sus contactos habituales de AWS Support.

chany

PD Un agradecimiento especial a Nisha Nadkarniarquitecta sénior especialista en soluciones de IA generativa en AWS por su contribución en la creación de un entorno de prueba HyperPod.



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Apple Watch Series 10 vuelve a los precios más bajos de todos los tiempos del Black Friday en Amazon, desde $ 329,99

Eche un vistazo más de cerca al enemigo Doppelghast en CoD: Black Ops 6 Zombies

Eche un vistazo más de cerca al enemigo Doppelghast en CoD: Black Ops 6 Zombies