in

AWS DevOps Agent lo ayuda a acelerar la respuesta a incidentes y mejorar la confiabilidad del sistema (versión preliminar) | Servicios web de Amazon

Hoy anunciamos la versión preliminar pública de AWS DevOps Agent, un agente de vanguardia que lo ayuda a responder a incidentes, identificar las causas fundamentales y prevenir problemas futuros mediante el análisis sistemático de incidentes pasados ​​y patrones operativos.

Los agentes fronterizos representan una nueva clase de agentes de IA que son autónomos, enormemente escalables y trabajan durante horas o días sin intervención constante.

Cuando ocurren incidentes de producción, los ingenieros de guardia enfrentan una presión significativa para identificar rápidamente las causas fundamentales mientras administran las comunicaciones con las partes interesadas. Deben analizar datos a través de múltiples herramientas de monitoreo, revisar implementaciones recientes y coordinar equipos de respuesta. Después de la restauración del servicio, los equipos a menudo carecen de ancho de banda para transformar lo aprendido sobre incidentes en mejoras sistemáticas.

AWS DevOps Agent es su ingeniero de guardia autónomo y siempre disponible. Cuando surgen problemas, correlaciona automáticamente los datos en toda su cadena de herramientas operativas, desde métricas y registros hasta implementaciones de código recientes en GitHub o GitLab. Identifica las causas fundamentales probables y recomienda mitigaciones específicas, lo que ayuda a reducir el tiempo medio de resolución. El agente también gestiona la coordinación de incidentes, utiliza los canales de Slack para obtener actualizaciones de las partes interesadas y mantiene cronogramas de investigación detallados.

Para comenzar, conecte AWS DevOps Agent a sus herramientas existentes a través de la Consola de administración de AWS. El agente trabaja con servicios populares como Amazon CloudWatch, perro de datos, Dynatrace, Nueva reliquiay Splunk para datos de observabilidad, mientras se integra con GitHub Actions y GitLab CI/CD para realizar un seguimiento de las implementaciones y su impacto en sus recursos de la nube. A través del trae lo tuyo (BYO) Protocolo de contexto modelo (MCP) capacidad del servidor, también puede integrar herramientas adicionales, como herramientas personalizadas de su organización, plataformas especializadas o soluciones de observabilidad de código abierto, como Grafana y Prometeo en sus investigaciones.

El agente actúa como miembro del equipo virtual y puede configurarse para responder automáticamente a incidentes desde sus sistemas de emisión de tickets. Incluye soporte integrado para Servicio ahoray a través de configurable ganchos webpuede responder a eventos de otras herramientas de gestión de incidentes como Servicio de buscapersonas. A medida que avanzan las investigaciones, el agente actualiza los tickets y los canales relevantes de Slack con sus hallazgos. Todo esto está impulsado por una topología de aplicación inteligente que crea el agente: un mapa completo de los componentes de su sistema y sus interacciones, incluido el historial de implementación que ayuda a identificar posibles causas relacionadas con la implementación durante las investigaciones.

Déjame mostrarte cómo funciona

Para mostrarle cómo funciona, implementé una sencilla función AWS Lambda que genera errores intencionalmente cuando se invoca. Lo implementé en una pila de AWS CloudFormation.

Paso 1: crear un espacio para agentes

Un espacio de agente define el alcance a lo que el agente de AWS DevOps puede acceder mientras realiza tareas.

Puede organizar Agent Spaces según su modelo operativo. Algunos equipos alinean un espacio de agentes con una sola aplicación, otros crean uno por equipo de guardia que administra múltiples servicios y algunas organizaciones utilizan un enfoque centralizado. Para esta demostración, le mostraré cómo crear un espacio de agente para una sola aplicación. Esta configuración ayuda a aislar las investigaciones y los recursos para esa aplicación específica, lo que facilita el seguimiento y el análisis de incidentes dentro de su contexto.

En la sección Agente de AWS DevOps de la Consola de administración de AWS, selecciono Crear espacio para agentesingrese un nombre para este espacio y cree los roles de AWS Identity and Access Management (IAM) que utiliza para realizar una introspección de los recursos de AWS en mis cuentas de AWS o en las de otros.

Agente de AWS DevOps: creación de un espacio de agentePara esta demostración, elijo habilitar la aplicación web AWS DevOps Agent; Más sobre esto más adelante. Esto se puede hacer en una etapa posterior.

Cuando esté listo, elijo Crear.

Agente de AWS DevOps: habilitar la aplicación webUna vez creado, elijo el Topología pestaña.

Esta vista muestra los recursos, entidades y relaciones clave que AWS DevOps Agent ha seleccionado como base para realizar sus tareas de manera eficiente. No representa todo lo que el agente de AWS DevOps puede acceder o ver, solo lo que el agente considera más relevante en este momento. De forma predeterminada, la topología incluye los recursos de AWS contenidos en mi cuenta. A medida que su agente complete más tareas, descubrirá y agregará nuevos recursos a esta lista.

Agente de AWS DevOps: topología

Paso 2: Configurar la aplicación web AWS DevOps para los operadores

La aplicación web AWS DevOps Agent proporciona una interfaz web para que los ingenieros de guardia activen investigaciones manualmente, vean los detalles de la investigación, incluidos los elementos topológicos relevantes, dirijan las investigaciones y hagan preguntas sobre una investigación.

Puedo acceder a la aplicación web directamente desde mi Agent Space en la consola de AWS eligiendo la opción Acceso del operador enlace. Alternativamente, puedo usar AWS IAM Identity Center para configurar el acceso de usuarios para mi equipo. IAM Identity Center me permite administrar usuarios y grupos directamente o conectarme a un proveedor de identidad (IdP), lo que proporciona una forma centralizada de controlar quién puede acceder a la aplicación web AWS DevOps Agent.

Agente de AWS DevOps: acceso a aplicaciones web

En esta etapa, tengo un espacio de agentes configurado para centrar las investigaciones y los recursos para esta aplicación específica, y he permitido que el equipo de DevOps inicie investigaciones utilizando la aplicación web.

Ahora que finalizó la configuración única para esta aplicación, empiezo a invocar la función Lambda defectuosa. Genera errores en cada invocación. La alarma de CloudWatch asociada con el recuento de errores de Lambda se activa para ALARMA estado. En la vida real, es posible que reciba una alerta de servicios externos, como ServiceNow. Puede configurar AWS DevOps Agent para que inicie investigaciones automáticamente al recibir dichas alertas.

Para esta demostración, inicio manualmente la investigación seleccionando Iniciar investigación.

También puede elegir entre varios puntos de partida preconfigurados para comenzar rápidamente su investigación: Última alarma para investigar la alarma activada más reciente y analizar las métricas y registros subyacentes para determinar la causa raíz, Uso elevado de CPU para investigar métricas de uso elevado de CPU en sus recursos informáticos e identificar qué procesos o servicios están consumiendo recursos excesivos, o Pico de tasa de error para investigar el aumento reciente en las tasas de error de aplicaciones analizando métricas, registros de aplicaciones e identificando el origen de las fallas.

Agente de AWS DevOps: aplicación web

Introduzco alguna información, como Detalles de la investigación, Punto de partida de la investigaciónel Fecha y hora del incidente.el ID de cuenta de AWS para el incidente.

- aplicación web - iniciar investigación

En la aplicación web AWS DevOps Agent, puede observar cómo se desarrolla la investigación en tiempo real. El agente identifica la pila de aplicaciones. Correlaciona métricas de CloudWatch, examina registros de CloudWatch Logs o fuentes externas, como Splunk, revisa cambios de código recientes de GitHub y analiza rastros de AWS X-Ray.

- aplicación web - pila de aplicaciones

Identifica los patrones de error y proporciona un resumen detallado de la investigación. En el contexto de esta demostración, la investigación revela que se trata de excepciones de prueba intencionales, muestra la línea de tiempo de las invocaciones de funciones que conducen a la alarma e incluso sugiere mejoras de monitoreo para el manejo de errores.

El agente utiliza un canal de incidentes dedicado en Slack, notifica a los equipos de guardia si es necesario y proporciona actualizaciones de estado en tiempo real a las partes interesadas. A través de la interfaz del chat de investigación, puede interactuar directamente con el agente haciéndole preguntas aclaratorias como «¿qué registros analizó?» o dirigir la investigación proporcionando contexto adicional, como «centrarse en estos grupos de registros específicos y volver a ejecutar su análisis». Si necesita ayuda de expertos, puede crear un caso de AWS Support con un solo clic, completándolo automáticamente con los hallazgos del agente e interactuar con los expertos de AWS Support directamente a través de la ventana de chat de investigación.

Para esta demostración, el agente de AWS DevOps identificó correctamente actividades manuales en la consola Lambda para invocar una función que desencadena errores intencionalmente 😇.

- aplicación web - causa raíz

Más allá de la respuesta a incidentes, AWS DevOps Agent analiza mis incidentes recientes para identificar mejoras de alto impacto que eviten problemas futuros.

Durante los incidentes activos, el agente ofrece planes de mitigación inmediata a través de su pestaña de mitigación de incidentes para ayudar a restaurar el servicio rápidamente. Los planes de mitigación constan de especificaciones que brindan orientación de implementación detallada para los desarrolladores y herramientas de desarrollo agentes como kiro.

Para lograr una resiliencia a más largo plazo, identifica mejoras potenciales examinando las brechas en la observabilidad, las configuraciones de la infraestructura y el proceso de implementación. Sin embargo, mi demostración sencilla que provocó errores intencionales no fue suficiente para generar recomendaciones relevantes.

Agente de AWS DevOps: aplicación web: recomendaciones

Por ejemplo, podría detectar que un servicio crítico carece de implementación multi-AZ y monitoreo integral. Luego, el agente crea recomendaciones detalladas con orientación de implementación, considerando factores como el impacto operativo y la complejidad de la implementación. En una próxima versión de seguimiento rápido, el agente ampliará su análisis para incluir errores de código y mejoras en la cobertura de pruebas.

Disponibilidad

Puede probar AWS DevOps Agent hoy en la región Este de EE. UU. (Norte de Virginia). Aunque el propio agente opera en el este de EE. UU. (Norte de Virginia) (us-east-1), puede monitorear aplicaciones implementadas en cualquier región, en múltiples cuentas de AWS.

Durante el período de vista previa, puede utilizar AWS DevOps Agent sin cargo, pero habrá un límite en la cantidad de horas de tarea del agente por mes.

Como alguien que ha pasado innumerables noches depurando problemas de producción, estoy particularmente entusiasmado con la forma en que AWS DevOps Agent combina conocimientos operativos profundos con recomendaciones prácticas y procesables. El servicio ayuda a los equipos a pasar de la extinción de incendios reactiva a la mejora proactiva del sistema.

Para obtener más información y registrarse para la vista previa, visite AWS DevOps Agent. Espero escuchar cómo AWS DevOps Agent le ayuda a mejorar su eficiencia operativa.

— seb

Fuente

Samsung comparte los secretos de ingeniería del Galaxy Z TriFold en un video promocional

La actualización de Mario Kart World ya está disponible, agrega reglas de elementos personalizados y más

La actualización de Mario Kart World ya está disponible, agrega reglas de elementos personalizados y más