|
Amazon DataZone es un servicio de gestión de datos para catalogar, descubrir, analizar, compartir y administrar datos entre productores y consumidores de datos de su organización. Los ingenieros, científicos de datos, gerentes de productos, analistas y usuarios comerciales pueden acceder fácilmente a los datos de toda su organización mediante un portal de datos unificado para que puedan descubrir, usar y colaborar para obtener información basada en datos.
Ahora, me complace anunciar en vista previa una nueva capacidad de linaje de datos compatible con OpenLineage y basada en API en Amazon DataZone, que proporciona una vista de extremo a extremo del movimiento de datos a lo largo del tiempo. El linaje de datos es una nueva característica dentro de Amazon DataZone que ayuda a los usuarios a visualizar y comprender la procedencia de los datos, rastrear la gestión de cambios, realizar análisis de causa raíz cuando se informa un error de datos y estar preparados para preguntas sobre el movimiento de datos desde el origen hasta el destino. Esta característica proporciona una vista integral de los eventos de linaje, capturados automáticamente desde el catálogo de Amazon DataZone junto con otros eventos capturados programáticamente fuera de Amazon DataZone al unirlos para un activo.
Cuando necesite validar cómo se originaron los datos de interés en la organización, puede confiar en la documentación manual o en las conexiones humanas. Este proceso manual consume mucho tiempo y puede generar inconsistencias, lo que reduce directamente su confianza en los datos. El linaje de datos en Amazon DataZone puede aumentar la confianza al ayudarlo a comprender dónde se originaron los datos, cómo han cambiado y su consumo en el tiempo. Por ejemplo, el linaje de datos se puede configurar de manera programática para mostrar los datos desde el momento en que se capturaron como archivos sin procesar en Amazon Simple Storage Service (Amazon S3), a través de sus transformaciones ETL con AWS Glue, hasta el momento en que se consumieron en herramientas como Amazon QuickSight.
Con el linaje de datos de Amazon DataZone, puede reducir el tiempo que dedica a mapear un activo de datos y sus relaciones, solucionar problemas y desarrollar canales, y aplicar prácticas de gobernanza de datos. El linaje de datos lo ayuda a reunir toda la información del linaje en un solo lugar mediante API y, luego, brindar una vista gráfica con la que los usuarios de datos pueden ser más productivos, tomar mejores decisiones basadas en datos y también identificar la causa raíz de los problemas de datos.
Permítame contarle cómo comenzar a utilizar el linaje de datos en Amazon DataZone. Luego, le mostraré cómo el linaje de datos mejora la experiencia del catálogo de datos de Amazon DataZone al mostrar visualmente las conexiones sobre cómo se originó un activo de datos para que pueda tomar decisiones informadas al buscar o usar el activo de datos.
Introducción al linaje de datos en Amazon DataZone
En la vista previa, puedo comenzar hidratando la información de linaje en Amazon DataZone de manera programada, ya sea creando directamente nodos de linaje mediante las API de Amazon DataZone o enviando Lineage abierto eventos compatibles de los componentes de canalización existentes para capturar el movimiento de datos o las transformaciones que ocurren fuera de Amazon DataZone. Para obtener información sobre los activos en el catálogo, Amazon DataZone captura automáticamente el linaje de sus estados (es decir, inventario o estados publicados) y sus suscripciones para productores, como ingenieros de datos, para rastrear quién está consumiendo los datos que produjeron o para consumidores de datos, como analistas de datos o ingenieros de datos, para comprender si están usando los datos correctos para su análisis.
Con el envío de la información, Amazon DataZone comenzará a poblar el modelo de linaje y podrá mapear el identificador enviado a través de las API con los activos ya catalogados. A medida que se envía nueva información de linaje, el modelo comienza a crear versiones para iniciar la visualización del activo en un momento determinado, pero también me permite navegar a versiones anteriores.
Utilizo un dominio de Amazon DataZone preconfigurado para este caso de uso. Utilizo dominios de Amazon DataZone para organizar mis activos de datos, usuarios y proyectos. Voy a la consola de Amazon DataZone y elijo Ver dominiosYo elijo mi dominio Dominio de ventas y elige Portal de datos abiertos.
Tengo cinco proyectos bajo mi dominio: uno para un productor de datos (Proyecto de Ventas) y cuatro para consumidores de datos (Proyecto de prueba de marketing, Proyecto de campaña publicitaria, Proyecto de campaña socialy Proyecto de campaña web). Puede visitar Amazon DataZone (ahora disponible de manera general): colabore en proyectos de datos a través de límites organizacionales para crear su propio dominio y todos los componentes principales.
Ingreso “Tabla de Ventas del Mercado” en el Buscar activos barra y luego vaya a la página de detalles para el Tabla de ventas del mercado Activo. Elijo el LINAJE Pestaña para visualizar el linaje con nodos ascendentes y descendentes.
Ahora puedo sumergirme en los detalles de los activos, procesos o trabajos que conducen hacia o desde esos activos y explorar en profundidad el linaje a nivel de columna.
Visualización interactiva con linaje de datos
Le mostraré la interfaz gráfica utilizando varias personas que interactúan regularmente con Amazon DataZone y se beneficiarán de la función de linaje de datos.
En primer lugar, supongamos que soy un analista de marketing que necesita confirmar el origen de un activo de datos para usarlo con confianza en su análisis. Voy a la Proyecto de prueba de marketing página y elige la LINAJE pestaña. Observo que el linaje incluye información sobre el activo tal como aparece dentro y fuera de Amazon DataZone. Las etiquetas Catalogado, Publicadoy Acceso solicitado Representar acciones dentro del catálogo. Amplío el ventas_mercado elemento del conjunto de datos para ver de dónde provienen los datos.
Ahora me siento seguro del origen del activo de datos y confío en que se alinea con mi propósito comercial antes de comenzar mi análisis.
En segundo lugar, supongamos que soy ingeniero de datos. Necesito comprender el impacto de mi trabajo en los objetos dependientes para evitar cambios no deseados. Como ingeniero de datos, cualquier cambio que se realice en el sistema no debe interrumpir ningún proceso posterior. Al explorar el linaje, puedo ver claramente quién se ha suscrito y tiene acceso al activo. Con esta información, puedo informar a los equipos de proyecto sobre un cambio inminente que puede afectar su flujo de trabajo. Cuando se informa un problema de datos, puedo investigar cada nodo y atravesar sus versiones para profundizar en lo que ha cambiado con el tiempo para identificar la causa raíz del problema y solucionarlo de manera oportuna.
Por último, como administrador o administrador, soy responsable de proteger los datos, estandarizar las taxonomías empresariales, implementar procesos de gestión de datos y gestionar el catálogo en general. Necesito recopilar detalles sobre la fuente de los datos y comprender las transformaciones que se han producido a lo largo del proceso.
Por ejemplo, como administrador que busca responder las preguntas de un auditor, recorro el gráfico en sentido ascendente para ver de dónde provienen los datos y observo que provienen de dos fuentes diferentes: venta en línea y venta en tienda. Estas fuentes tienen sus propias líneas de procesamiento hasta que el flujo llega a un punto en el que las líneas de procesamiento se fusionan.
Mientras navego por el gráfico de linaje, puedo expandir las columnas para asegurar que las columnas sensibles se eliminen durante los procesos de transformación y responder a los auditores con detalles de manera oportuna.
Únete a la vista previa
La capacidad de linaje de datos está disponible en versión preliminar en todas las regiones donde Amazon DataZone está disponible de forma general. Para obtener una lista de las regiones donde se pueden aprovisionar dominios de Amazon DataZone, visite Servicios de AWS por región.
Los costos de linaje de datos dependen del uso del almacenamiento y de las solicitudes de API, que ya están incluidas en el modelo de precios de Amazon DataZone. Para obtener más detalles, visite Precios de Amazon DataZone.
Para obtener más información sobre el linaje de datos en Amazon DataZone, visita la Guía del usuario de Amazon DataZone.
GIPHY App Key not set. Please check settings