|
Hoy, me complace anunciar la disponibilidad general del linaje de datos en Amazon DataZone, luego de su lanzamiento preliminar en junio de 2024. Esta característica también se amplía como parte de las capacidades del catálogo en la próxima generación de Amazon SageMaker, una plataforma unificada para datos. , análisis e inteligencia artificial.
Tradicionalmente, los analistas de negocios han dependido de documentación manual o conexiones personales para validar los orígenes de los datos, lo que genera procesos inconsistentes y que consumen mucho tiempo. Los ingenieros de datos han tenido dificultades para evaluar el impacto de los cambios en los activos de datos, especialmente a medida que aumenta la adopción de análisis de autoservicio. Además, los equipos de gobierno de datos han enfrentado dificultades para hacer cumplir las prácticas y responder a las consultas de los auditores sobre el movimiento de datos.
El linaje de datos en Amazon DataZone aborda los desafíos que enfrentan las organizaciones que se esfuerzan por seguir siendo competitivas mediante el uso de sus datos para análisis estratégicos. Mejora la confianza y la validación de los datos al proporcionar un historial visual y rastreable de los activos de datos, lo que permite a los analistas de negocios comprender rápidamente los orígenes de los datos sin una investigación manual. Para los ingenieros de datos, facilita el análisis de impacto y la resolución de problemas al mostrar claramente las relaciones entre los activos y permitir un fácil seguimiento de los flujos de datos.
La función respalda los esfuerzos de cumplimiento y gobierno de datos al ofrecer una vista integral del movimiento de datos, lo que ayuda a los equipos de gobierno a responder rápidamente a las consultas de cumplimiento y hacer cumplir las políticas de datos. Mejora el descubrimiento y la comprensión de datos, ayudando a los consumidores a comprender el contexto y la relevancia de los activos de datos de manera más eficiente. Además, el linaje de datos contribuye a una mejor gestión del cambio, una mayor alfabetización en datos, una reducción de la duplicación de datos y una mejor colaboración entre equipos. Al abordar estos desafíos, el linaje de datos en Amazon DataZone ayuda a las organizaciones a construir un ecosistema de datos más confiable, eficiente y compatible, lo que en última instancia permite una toma de decisiones más efectiva basada en datos.
La captura de linaje automatizada es una característica clave del linaje de datos en Amazon DataZone, que se centra en recopilar y mapear automáticamente información de linaje de AWS Glue y Amazon Redshift. Esta automatización reduce significativamente el esfuerzo manual necesario para mantener información de linaje precisa y actualizada.
Comience con el linaje de datos en Amazon DataZone
Los productores de datos y los administradores de dominio comienzan configurando los trabajos de ejecución de fuentes de datos para las fuentes de AWS Glue Data Catalog y Amazon Redshift en Amazon DataZone para recopilar periódicamente metadatos del catálogo de fuentes. Además, los productores de datos pueden hidratar la información de linaje mediante programación mediante la creación de nodos de linaje personalizados utilizando API que acepten eventos compatibles con OpenLineage de componentes de canalización existentes, como programadores, almacenes, herramientas de análisis y motores SQL, para enviar datos sobre conjuntos de datos, trabajos y se ejecuta directamente en el punto final de la API de Amazon DataZone. Una vez enviada la información, Amazon DataZone comenzará a completar el modelo de linaje y lo asignará a los activos ya catalogados. A medida que se capturan nuevos eventos de linaje, Amazon DataZone mantiene versiones de eventos que ya se capturaron, de modo que los usuarios puedan navegar a versiones anteriores si es necesario.
Desde la perspectiva del consumidor, el linaje puede ayudar en tres escenarios. En primer lugar, un analista de negocios que explora un activo puede ir al portal de Amazon DataZone, buscar un activo por nombre y seleccionar un activo que le interese para profundizar en los detalles. Inicialmente, se les presentarán detalles en el Metadatos comerciales pestaña y pasar a la derecha a las pestañas vecinas. Para ver el linaje, el analista puede ir al Linaje pestaña para obtener detalles de los nodos ascendentes para encontrar la fuente. Al analista se le presenta una vista del linaje de ese activo con un nivel ascendente y descendente. Para obtener la fuente, el analista puede elegir aguas arriba y llegar a la fuente del activo. Cuando el analista esté seguro de que este es el activo correcto, puede suscribirse al activo y continuar con su trabajo.
En segundo lugar, si se informa un problema de datos (por ejemplo, cuando un panel muestra inesperadamente un aumento significativo en el número de clientes), un ingeniero de datos puede utilizar el portal Amazon DataZone para localizar y examinar los detalles relevantes de los activos. En la página de detalles del activo, el ingeniero de datos navega a la página Linaje para ver los detalles de los nodos ascendentes del activo en cuestión. El ingeniero puede profundizar en los detalles de cada nodo, sus instantáneas, el mapeo de columnas entre cada nodo de la tabla, los trabajos que se ejecutaron en el medio y ver la consulta que se ejecutó en la ejecución del trabajo. Con esta información, el ingeniero de datos puede detectar que se agregó una nueva tabla de entrada a la canalización, lo que ha introducido un aumento en el recuento de clientes, porque nota que esta nueva tabla no formaba parte de las instantáneas anteriores de las ejecuciones del trabajo. Esto les ayuda a aclarar que se agregó una nueva fuente y, por lo tanto, los datos que se muestran en el panel son precisos.
Por último, un delegado que desee responder a las preguntas de un auditor puede ir al activo en cuestión y navegar hasta el Linaje pestaña de ese activo. El administrador recorre el gráfico en sentido ascendente para ver de dónde provienen los datos y observa que los datos provienen de dos equipos diferentes (por ejemplo, de dos bases de datos locales diferentes) que tienen sus propias canalizaciones hasta que llega a un punto donde las canalizaciones se fusionan. . Mientras navega por el gráfico de linaje, el administrador puede expandir las columnas para asegurarse de que las columnas sensibles se eliminen durante los procesos de transformación y responder a los auditores con detalles de manera oportuna.
Cómo Amazon DataZone automatiza la recopilación de linaje
Amazon DataZone ahora permite la captura automática de eventos de linaje, lo que ayuda a los productores y administradores de datos a optimizar el seguimiento de las relaciones y transformaciones de los datos en sus recursos de AWS Glue y Amazon Redshift. Para permitir la captura automática de eventos de linaje de AWS Glue y Amazon Redshift, debe participar porque algunos de sus trabajos o conexiones pueden ser para prueba y es posible que no necesite capturar ningún linaje. Con la experiencia integrada disponible, los servicios le brindarán una opción en sus ajustes de configuración para optar por recopilar y emitir eventos de linaje directamente a Amazon DataZone.
Estos eventos deben capturar las diversas operaciones de transformación de datos que realiza en tablas y otros objetos, como la creación de tablas con definiciones de columnas, cambios de esquema y consultas de transformación, incluidas agregaciones y filtrado. Al obtener estos eventos de linaje directamente de sus motores de procesamiento, Amazon DataZone puede crear una base de información de linaje de datos precisa y coherente. Esto le ayudará a usted, como productor de datos, a seleccionar aún más los datos del linaje como parte de las capacidades más amplias del catálogo de datos empresariales.
Los administradores pueden habilitar el linaje al configurar el sistema integrado Lago de datos predeterminado o el Almacén de datos predeterminado planos.
Los productores de datos pueden ver el estado del linaje automatizado mientras configuran las ejecuciones de la fuente de datos.
Con el reciente lanzamiento de la próxima generación de Amazon SageMaker, el linaje de datos está disponible como una de las capacidades del catálogo en Amazon SageMaker Unified Studio (versión preliminar). Los usuarios de datos pueden configurar el linaje mediante conexiones, y esa configuración automatizará la captura del linaje en la plataforma para que todos los usuarios puedan explorar y comprender los datos. Así es como se verá el linaje de datos en Amazon SageMaker de próxima generación.
Ahora disponible
Puede comenzar a utilizar esta capacidad para obtener conocimientos más profundos sobre su ecosistema de datos e impulsar una toma de decisiones más informada y basada en datos.
El linaje de datos generalmente está disponible en todas las regiones de AWS donde Amazon DataZone está disponible. Para obtener una lista de regiones donde se pueden aprovisionar dominios de Amazon DataZone, visite Servicios de AWS por región.
Los costos del linaje de datos dependen del uso del almacenamiento y de las solicitudes de API, que ya están incluidos en el modelo de precios de Amazon DataZone. Para obtener más detalles, visite Precios de Amazon DataZone.
Para comenzar con el linaje de datos en Amazon DataZone, visite la Guía del usuario de Amazon DataZone.
GIPHY App Key not set. Please check settings