|
Amazon DynamoDB, una base de datos NoSQL sin servidor, ha sido la solución preferida por más de un millón de clientes para crear aplicaciones de baja latencia y alta escala. A medida que los datos crecen, las organizaciones buscan constantemente formas de extraer información valiosa de los datos operativos, que a menudo se almacenan en DynamoDB. Sin embargo, para aprovechar al máximo estos datos en Amazon DynamoDB para casos de uso de análisis y aprendizaje automático (ML), los clientes suelen crear canales de datos personalizados, una tarea de infraestructura que requiere mucho tiempo y que agrega poco valor único a su negocio principal.
A partir de hoy, puede utilizar la integración zero-ETL de Amazon DynamoDB con Amazon SageMaker Lakehouse para ejecutar análisis y cargas de trabajo de aprendizaje automático con solo unos pocos clics sin consumir la capacidad de su tabla de DynamoDB. Amazon SageMaker Lakehouse unifica todos sus datos en los lagos de datos de Amazon S3 y los almacenes de datos de Amazon Redshift, lo que le ayuda a crear potentes aplicaciones de análisis e IA/ML en una única copia de datos.
Zero-ETL es un conjunto de integraciones que elimina o minimiza la necesidad de crear canales de datos ETL. Esta integración ETL cero reduce la complejidad de los esfuerzos de ingeniería necesarios para crear y mantener canalizaciones de datos, lo que beneficia a los usuarios que ejecutan cargas de trabajo de análisis y aprendizaje automático en datos operativos en Amazon DynamoDB sin afectar los flujos de trabajo de producción.
Empecemos
Para la siguiente demostración, necesito configurar la integración ETL cero para mis datos en Amazon DynamoDB con un lago de datos de Amazon Simple Storage Service administrado por Amazon SageMaker Lakehouse. Antes de configurar la integración de ETL cero, existen requisitos previos que deben completarse. Si desea obtener más información sobre cómo configurar, consulte esta página de documentación de Amazon DynamoDB.
Una vez completados todos los requisitos previos, puedo comenzar con esta integración. Navego a la consola de AWS Glue y selecciono Integraciones ETL cero bajo Integración de datos y ETL. Entonces elijo Cree una integración ETL cero.
Aquí tengo opciones para seleccionar mi fuente de datos. yo elijo AmazonDynamoDB y elige Próximo.
A continuación, necesito configurar los detalles de origen y destino. En el Detalles de la fuente sección, selecciono mi tabla de Amazon DynamoDB. En el Detalles del objetivo En la sección, especifico el depósito S3 que configuré en el catálogo de datos de AWS Glue.
Para configurar esta integración, necesito un rol de IAM que otorgue a AWS Glue los permisos necesarios. Para obtener orientación sobre cómo configurar los permisos de IAM, visite la página de documentación de Amazon DynamoDB. Además, si no he configurado una política de recursos para mi catálogo de datos de AWS Glue, puedo seleccionar Arréglalo por mí para agregar automáticamente las políticas de recursos requeridas.
Aquí tengo opciones para configurar la salida. Bajo partición de datospuedo usar claves de tabla de DynamoDB para particionar o especificar claves de partición personalizadas. Después de completar la configuración, elijo Próximo.
Porque selecciono el Arréglalo por mí casilla de verificación, necesito revisar los cambios requeridos y elegir Continuar antes de poder continuar con el siguiente paso.
En la página siguiente, tengo la flexibilidad de configurar el cifrado de datos. Puedo utilizar AWS Key Management Service (AWS KMS) o una clave de cifrado personalizada. Luego, le asigno un nombre a la integración y elijo Próximo.
En el último paso, necesito revisar las configuraciones. Cuando soy feliz, elijo Próximo para crear la integración ETL cero.
Una vez que se complete la ingesta de datos inicial, mi integración ETL cero estará lista para su uso. El tiempo de finalización varía según el tamaño de mi tabla de origen de DynamoDB.
Si navego hacia Mesas bajo Catálogo de datos en el panel de navegación izquierdo, puedo observar más detalles incluyendo Esquema. Debajo del capó, esta integración ETL cero utiliza Iceberg apache para transformar datos relacionados con el formato y la estructura de mis datos de DynamoDB en Amazon S3.
Por último, puedo decir que todos mis datos están disponibles en mi depósito S3.
Esta integración de ETL cero reduce significativamente la complejidad y la carga operativa del movimiento de datos y, por lo tanto, puedo concentrarme en extraer información en lugar de administrar canalizaciones.
Disponible ahora
Esta nueva capacidad de ETL cero está disponible en las siguientes regiones de AWS: EE. UU. Este (Norte de Virginia, Ohio), EE. UU. Oeste (Oregón), Asia Pacífico (Hong Kong, Singapur, Sídney, Tokio), Europa (Frankfurt, Irlanda, Estocolmo). ).
Explore cómo optimizar sus flujos de trabajo de análisis de datos mediante la integración zero-ETL de Amazon DynamoDB con Amazon SageMaker Lakehouse. Obtenga más información sobre cómo comenzar en la página de documentación de Amazon DynamoDB.
¡Feliz edificio!
— donnie
GIPHY App Key not set. Please check settings