|
En 1980, en mi segundo trabajo de programación profesional, estaba trabajando en un proyecto que analizaba datos de licencias de conducir de varios estados de EE. UU. En ese momento, los datos de ese tipo generalmente se almacenaban en registros de longitud fija, con valores cuidadosamente (o no) codificados en cada campo. Aunque nos dieron esquemas para los datos, invariablemente encontraríamos que los desarrolladores tenían que recurrir a trucos para representar valores que no se anticiparon por adelantado. Por ejemplo, codificar para alguien con heterocromía, ojos de diferentes colores. Terminamos haciendo un escaneo completo de los datos antes de nuestra costosa y lenta ejecución de análisis para asegurarnos de que estábamos tratando con datos conocidos. Esta fue mi introducción a la calidad de los datos, o la falta de ella.
AWS le facilita la creación de lagos de datos y almacenes de datos a cualquier escala. Queremos que sea más fácil que nunca medir y mantener el nivel de calidad deseado de los datos que ingiere, procesa y comparte.
Presentación de la calidad de datos de AWS Glue
Hoy me gustaría hablarles sobre AWS Glue Data Quality, un nuevo conjunto de características para AWS Glue que estamos lanzando en forma de vista previa. Puede analizar sus tablas y recomendar un conjunto de reglas automáticamente en función de lo que encuentre. Puede ajustar esas reglas si es necesario y también puede escribir sus propias reglas. En esta publicación de blog, le mostraré algunos aspectos destacados y guardaré los detalles para una publicación completa cuando estas funciones pasen de la vista previa a la disponibilidad general.
Cada regla de calidad de datos hace referencia a una tabla de Glue oa columnas seleccionadas en una tabla de Glue y verifica tipos específicos de propiedades: puntualidad, precisión, integridad, etc. Por ejemplo, una regla puede indicar que una tabla debe tener el número esperado de columnas, que los nombres de las columnas coincidan con un patrón deseado y que una columna específica se pueda usar como clave principal.
Empezando
Puedo abrir el nuevo Calidad de los datos pestaña en una de mis tablas de Glue para comenzar. Desde allí, puedo crear un conjunto de reglas manualmente o puedo hacer clic en Recomendar conjunto de reglas Para empezar:
Luego ingreso un nombre para mi conjunto de reglas (RS1), elija un rol de IAM que tenga permiso para acceder a él y haga clic en Recomendar conjunto de reglas:
Mi clic inicia una tarea de recomendación de Glue (un tipo especializado de trabajo de Glue) que escanea los datos y hace recomendaciones. Una vez que la tarea se ha ejecutado hasta su finalización, puedo examinar las recomendaciones:
hago clic Evaluar conjunto de reglas para comprobar la calidad de mis datos.
La tarea de calidad de datos se ejecuta y puedo examinar los resultados:
Además de crear conjuntos de reglas que se adjuntan a las tablas, puedo usarlos como parte de un trabajo de Glue. Creo mi trabajo como de costumbre y luego agrego un Evaluar la calidad de los datos nodo:
Luego utilizo el generador de lenguaje de definición de calidad de datos (DDQL) para crear mis reglas. Puedo elegir entre 20 tipos de reglas diferentes:
Para esta publicación de blog, hice estas reglas más estrictas de lo necesario para poder mostrarle lo que sucede cuando falla la evaluación de la calidad de los datos.
Puedo configurar las opciones del trabajo y elegir los datos originales o los resultados de calidad de los datos como salida de la transformación. También puedo escribir los resultados de la calidad de los datos en un depósito S3:
Después de haber creado mi conjunto de reglas, configuro cualquier otra opción deseada para el trabajo, lo guardo y luego lo ejecuto. Una vez que se completa el trabajo, puedo encontrar los resultados en la pestaña Calidad de los datos. Debido a que hice algunas reglas demasiado estrictas, la evaluación marcó correctamente mis datos con una puntuación del 0 %:
¡Hay mucho más, pero lo guardaré para la próxima publicación del blog!
Cosas que saber
Vista previa de regiones – Esta es una versión preliminar abierta y puede acceder a ella hoy mismo en las regiones de AWS de EE. UU. Este (Ohio, N. Virginia), EE. UU. Oeste (Oregón), Asia Pacífico (Tokio) y Europa (Irlanda).
Precios – La evaluación de la calidad de los datos consume unidades de procesamiento de datos (DPU) de Glue de la misma manera y al mismo precio por DPU que cualquier otro trabajo de Glue.
— jeff;