|
Los datos alimentan el aprendizaje automático. En el aprendizaje automático, la preparación de datos es el proceso de transformar datos sin procesar en un formato que sea adecuado para su posterior procesamiento y análisis. El proceso común para la preparación de datos comienza con la recopilación de datos, luego se limpia, se etiqueta y finalmente se valida y visualiza. Obtener los datos correctos con alta calidad a menudo puede ser un proceso complejo y lento.
Esta es la razón por la que los clientes que crean cargas de trabajo de aprendizaje automático (ML) en AWS aprecian la capacidad de Amazon SageMaker Data Wrangler. Con SageMaker Data Wrangler, los clientes pueden simplificar el proceso de preparación de datos y completar los procesos necesarios del flujo de trabajo de preparación de datos en una única interfaz visual. Amazon SageMaker Data Wrangler ayuda a reducir el tiempo que lleva agregar y preparar datos para ML.
Sin embargo, debido a la proliferación de datos, los clientes generalmente tienen datos distribuidos en múltiples sistemas, incluidas aplicaciones externas de software como servicio (SaaS) como SAP OData para datos de fabricación, Salesforce para canalización de clientes y Google Analytics para aplicaciones web. datos. Para resolver problemas comerciales mediante ML, los clientes deben reunir todas estas fuentes de datos. Actualmente tienen que crear su propia solución o utilizar soluciones de terceros para incorporar datos en Amazon S3 o Amazon Redshift. Estas soluciones pueden ser complejas de configurar y no rentables.
Presentamos Amazon SageMaker Data Wrangler que admite aplicaciones SaaS como orígenes de datos
Me complace compartir que, a partir de hoy, puede agregar datos de aplicaciones SaaS externas para ML en Amazon SageMaker Data Wrangler para preparar datos para ML. Con esta característica, puede usar más de 40 aplicaciones SaaS como fuentes de datos a través de Amazon AppFlow y tener estos datos disponibles en Amazon SageMaker Data Wrangler. Una vez que las fuentes de datos están registradas en AWS Glue Data Catalog por AppFlow, puede explorar tablas y esquemas de estas fuentes de datos utilizando Data Wrangler SQL explorer. Esta función proporciona una integración de datos perfecta entre las aplicaciones SaaS y SageMaker Data Wrangler mediante Amazon AppFlow.
Aquí hay una vista previa rápida de esta nueva función:
Esta nueva función de Amazon SageMaker Data Wrangler funciona mediante la integración con Amazon AppFlow, un servicio de integración totalmente administrado que le permite intercambiar datos de forma segura entre aplicaciones SaaS y servicios de AWS. Con Amazon AppFlow, puede establecer una integración de datos bidireccional entre aplicaciones SaaS, como Salesforce, SAP y Amplitude y todos los servicios compatibles, en su Amazon S3 o Amazon Redshift.
Luego, con Amazon AppFlow, puede catalogar los datos en AWS Glue Data Catalog. Esta es una característica nueva en la que, con Amazon AppFlow, puede crear una integración con AWS Glue Data Catalog para el conector de destino de Amazon S3. Con esta nueva integración, los clientes pueden catalogar aplicaciones de datos SaaS en AWS Glue Data Catalog con unos pocos clics, directamente desde la configuración de Amazon AppFlow Flow, sin necesidad de ejecutar ningún rastreador.
Una vez que haya establecido un flujo y lo haya insertado en AWS Glue Data Catalog, puede usar estos datos dentro de Amazon SageMaker Data Wrangler. Luego, puede hacer la preparación de datos como lo hace habitualmente. Puede escribir consultas de Amazon Athena para obtener una vista previa de los datos, unir datos de varias fuentes o importar datos para prepararse para el entrenamiento del modelo ML.
Con esta función, debe realizar unos sencillos pasos para realizar una integración de datos perfecta entre las aplicaciones SaaS en Amazon SageMaker Data Wrangler a través de Amazon AppFlow. Esta integración es compatible con más de 40 aplicaciones SaaS y, para obtener una lista completa de las aplicaciones compatibles, consulte la documentación de las aplicaciones de origen y destino compatibles.
Introducción a la compatibilidad con Amazon SageMaker Data Wrangler para Amazon AppFlow
Veamos cómo funciona esta característica en detalle. En mi escenario, necesito obtener datos de Salesforce y prepararlos con Amazon SageMaker Data Wrangler.
Para comenzar a usar esta función, lo primero que debo hacer es crear un flujo en Amazon AppFlow que registre la fuente de datos en el catálogo de datos de AWS Glue. Ya tengo una conexión existente con mi cuenta de Salesforce y todo lo que necesito ahora es crear un flujo.
Una cosa importante a tener en cuenta es que para que los datos de la aplicación SaaS estén disponibles en Amazon SageMaker Data Wrangler, necesito crear un flujo con Amazon S3 como destino. Entonces, necesito habilitar Crear un catálogo de datos mesa en el Configuración del catálogo de datos de AWS Glue. Esta opción catalogará automáticamente mis datos de Salesforce en AWS Glue Data Catalog.
En esta página, necesito seleccionar un rol de usuario con los permisos requeridos de AWS Glue Data Catalog y definir el nombre de la base de datos y el prefijo de nombre de tabla. Además, en esta sección, puedo definir el preferencia de formato de datosya sea en formato JSON, CSV o Apache Parquet, y preferencia de nombre de archivo si quiero agregar una marca de tiempo en la sección de nombre de archivo.
Para obtener más información sobre cómo registrar datos de SaaS en Amazon AppFlow y AWS Glue Data Catalog, puede leer Catalogación de la salida de datos de un flujo de Amazon AppFlow página de documentación.
Una vez que termine de registrar los datos de SaaS, debo asegurarme de que el rol de IAM pueda ver las fuentes de datos en Data Wrangler desde AppFlow. Este es un ejemplo de una política en el rol de IAM:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": "glue:SearchTables",
"Resource": [
"arn:aws:glue:*:*:table/*/*",
"arn:aws:glue:*:*:database/*",
"arn:aws:glue:*:*:catalog"
]
}
]
}
Al habilitar la catalogación de datos con AWS Glue Data Catalog, a partir de este momento, Amazon SageMaker Data Wrangler podrá descubrir automáticamente esta nueva fuente de datos y puedo explorar tablas y esquemas con Data Wrangler SQL Explorer.
Ahora es el momento de cambiar al panel de Amazon SageMaker Data Wrangler y luego seleccionar Conectarse a fuentes de datos.
En la página siguiente, necesito Crear conexión y seleccione la fuente de datos que quiero importar. En esta sección, puedo ver todas las conexiones disponibles para mí. Aquí veo que la conexión de Salesforce ya está disponible para que la use.
Si quisiera agregar fuentes de datos adicionales, puedo ver una lista de aplicaciones SaaS externas que puedo integrar en el Configurar nuevas fuentes de datos sección. Para aprender a reconocer aplicaciones SaaS externas como fuentes de datos, puedo obtener más información con la selección Cómo habilitar el acceso.
Ahora importaré conjuntos de datos y seleccionaré la conexión de Salesforce.
En la página siguiente, puedo definir la configuración de conexión e importar datos de Salesforce. Cuando termino con esta configuración, selecciono Conectar.
En la siguiente página, veo mis datos de Salesforce que ya configuré con Amazon AppFlow y AWS Glue Data Catalog llamados appflowdatasourcedb
. también puedo ver un vista previa de la tabla y esquema para que revise si estos son los datos que necesito.
Luego, empiezo a crear mi conjunto de datos usando estos datos realizando consultas SQL dentro del Explorador SQL de SageMaker Data Wrangler. Luego, selecciono Consulta de importación.
Luego, defino un nombre para mi conjunto de datos.
En este punto, puedo empezar a hacer el proceso de preparación de datos. Puedo navegar a la Análisis pestaña para ejecutar el informe de información de datos. El análisis me proporcionará un informe sobre los problemas de calidad de los datos y qué transformación necesito usar a continuación para solucionar los problemas en función del problema de ML que quiero predecir. Para obtener más información sobre cómo usar la función de análisis de datos, consulte Acelere la preparación de datos con información y calidad de datos en la publicación de blog de Amazon SageMaker Data Wrangler.
En mi caso, hay varias columnas que no necesito y necesito eliminar estas columnas. Yo selecciono Agregar paso.
Una característica que me gusta es que Amazon SageMaker Data Wrangler proporciona numerosas transformaciones de datos de ML. Me ayuda a agilizar el proceso de limpieza, transformación e ingeniería de características de mis datos en un tablero. Para obtener más información sobre lo que proporciona SageMaker Data Wrangler para los datos de transformación, lea esta página de documentación sobre Transformación de datos.
En esta lista, selecciono Administrar columnas.
Entonces, en el Transformar sección, selecciono la Soltar columna opción. Luego, selecciono algunas columnas que no necesito.
Una vez que termino, las columnas que no necesito se eliminan y el Soltar columna el paso de preparación de datos que acabo de crear se enumera en el Agregar paso sección.
También puedo ver la imagen de mi flujo de datos dentro de Amazon SageMaker Data Wrangler. En este ejemplo, mi flujo de datos es bastante básico. Pero cuando mi proceso de preparación de datos se vuelve complejo, esta vista visual me facilita ver todos los pasos de preparación de datos.
A partir de este momento, puedo hacer lo que necesito con mis datos de Salesforce. Por ejemplo, puedo exportar datos directamente a Amazon S3 seleccionando Exportar a y eligiendo Amazonas S3 desde el Añadir destino menú. En mi caso, especifico Arreglista de datos para almacenar los datos en Amazon S3 después de haberlos procesado seleccionando Añadir destino y entonces Amazonas S3.
Amazon SageMaker Data Wrangler me brinda flexibilidad para automatizar el mismo flujo de preparación de datos mediante trabajos programados. También puedo automatizar la ingeniería de características con Canalizaciones de SageMaker (a través de Jupyter Notebook) y Tienda de características de SageMaker (a través de Jupyter Notebook)e implementar en el punto final de inferencia con Canal de inferencia de SageMaker (a través de Jupyter Notebook).
Cosas que saber
Noticias relacionadas – Esta función le facilitará la agregación y preparación de datos con Amazon SageMaker Data Wrangler. Como esta característica es una integración con Amazon AppFlow y también con AWS Glue Data Catalog, es posible que desee obtener más información sobre Amazon AppFlow que ahora admite la integración de AWS Glue Data Catalog y proporciona una página de preparación de datos mejorada.
Disponibilidad – Amazon SageMaker Data Wrangler admite aplicaciones SaaS como fuentes de datos disponibles en todas las regiones actualmente admitidas por Amazon AppFlow.
Precios – No hay ningún costo adicional por usar la compatibilidad con aplicaciones SaaS en Amazon SageMaker Data Wrangler, pero hay un costo por ejecutar Amazon AppFlow para obtener los datos en Amazon SageMaker Data Wrangler.
Visite la página de documentación Importación de datos de plataformas de software como servicio (SaaS) para obtener más información sobre esta función y siga la guía de inicio para comenzar a agregar y preparar datos de aplicaciones SaaS con Amazon SageMaker Data Wrangler.
¡Feliz edificio!
— Donnie