|
Hoy anunciamos la disponibilidad general de la creación de preparación de datos en AWS Glue Studio Visual ETL. Se trata de una nueva experiencia de usuario de preparación de datos sin código para usuarios empresariales y analistas de datos con una interfaz de usuario de estilo de hoja de cálculo que ejecuta trabajos de integración de datos a escala en AWS Glue para Spark. La nueva experiencia de preparación de datos visual facilita a los analistas y científicos de datos la limpieza y transformación de datos para prepararlos para el análisis y el aprendizaje automático (ML). Dentro de esta nueva experiencia, puede elegir entre cientos de transformaciones predefinidas para automatizar las tareas de preparación de datos, todo ello sin necesidad de escribir ningún código.
Los analistas de negocios ahora pueden colaborar con los ingenieros de datos para crear trabajos de integración de datos. Los ingenieros de datos pueden usar la vista basada en flujo visual de Glue Studio para definir conexiones a los datos y establecer el orden del proceso de flujo de datos. Los analistas de negocios pueden usar la experiencia de preparación de datos para definir la transformación y la salida de los datos. Además, puede importar sus «recetas» de preparación y limpieza de datos de AWS Glue DataBrew existentes a la nueva experiencia de preparación de datos de AWS Glue. De esta manera, puede continuar creándolas directamente en AWS Glue Studio y luego escalar las recetas para procesar petabytes de datos al precio más bajo para los trabajos de AWS Glue.
Requisitos previos de ETL visual (configuración del entorno)
El ETL visual necesita una política administrada de IAM AWSGlueConsoleFullAccess adjunta a los usuarios y roles que accederán a AWS Glue.
Esta política otorga a estos usuarios y roles acceso completo a AWS Glue y acceso de lectura a los recursos de Amazon Simple Storage Service (Amazon S3).
Flujos ETL visuales avanzados
Una vez que se hayan definido los permisos de rol de AWS Identity and Access Management (IAM) adecuados, cree el ETL visual mediante AWS Glue Studio.
Extracto
Cree un nodo de Amazon S3 seleccionando el nodo de Amazon S3 de la lista de Fuentes.
Seleccione el nodo recién creado y busque un conjunto de datos S3. Una vez que el archivo se haya cargado correctamente, seleccione Inferir esquema para configurar el nodo fuente y la interfaz visual mostrará la vista previa de los datos contenidos en el archivo .csv.
Anteriormente creé un depósito S3 en la misma región que el ETL visual de AWS Glue y cargué un archivo .csv visual ETL conference data.csv
que contiene los datos que estaré visualizando.
Es importante configurar los permisos de rol como se detalla en el paso anterior para otorgarle a AWS Glue acceso para leer el depósito S3. Si no realiza este paso, recibirá un error que, en última instancia, le impedirá ver la vista previa de los datos.
Transformar
Una vez configurado el nodo, agregue una receta de preparación de datos e inicie una sesión de vista previa de datos. El inicio de esta sesión suele demorar entre 2 y 3 minutos.
Una vez que la sesión de vista previa de datos esté lista, seleccione Receta del autor para iniciar una sesión de creación y agregar transformaciones una vez que se complete el marco de datos. Durante la sesión de creación, puede ver los datos, aplicar los pasos de transformación y ver los datos transformados de forma interactiva. Puede deshacer, rehacer y reordenar los pasos. Puede visualizar el tipo de datos de la columna y las propiedades estadísticas de cada columna.
Puede comenzar a aplicar pasos de transformación a sus datos, como cambiar formatos de minúsculas a mayúsculas, cambiar el orden de clasificación y más, eligiendo Añadir pasoTodos los pasos de preparación de sus datos se rastrearán en la receta.
Quería tener una vista de las conferencias que se realizarán en Sudáfrica, así que creé dos recetas para filtrar por condición donde Ubicación La columna tiene valores iguales a “Sudáfrica” y la Comentarios La columna contiene un valor.
Carga
Una vez que haya preparado sus datos de forma interactiva, puede compartir su trabajo con ingenieros de datos que pueden ampliarlo con flujos ETL visuales más avanzados y código personalizado para integrarlo sin problemas en sus canales de datos de producción.
Ya disponible
La experiencia de creación de preparación de datos de AWS Glue ahora está disponible públicamente en todas las regiones comerciales de AWS donde AWS Data Brew está disponible. Para obtener más información, visite AWS Glue y consulte los siguientes enlaces. video y lea el blog de AWS Big Data.
Para obtener más información, visite la Guía para desarrolladores de AWS Glue y envíe comentarios a AWS re:Post para AWS Glue o a través de sus contactos de soporte habituales de AWS.
— Veliswa
GIPHY App Key not set. Please check settings