|
Las integraciones Zero-ETL ayudan a unificar sus datos en todas las aplicaciones y fuentes de datos para obtener información integral y romper los silos de datos. Proporcionan una solución totalmente administrada, sin código y casi en tiempo real para hacer que petabytes de datos transaccionales estén disponibles en Amazon Redshift en cuestión de segundos después de que los datos se escriban en Amazon Relational Database Service (Amazon RDS) para MySQL. Esto elimina la necesidad de crear sus propios trabajos ETL, lo que simplifica la ingesta de datos, reduce su sobrecarga operativa y potencialmente reduce sus costos generales de procesamiento de datos. El año pasado, anunciamos la disponibilidad general de la integración Zero-ETL con Amazon Redshift para Amazon Aurora MySQL-Compatible Edition, así como la disponibilidad en vista previa de Aurora PostgreSQL-Compatible Edition, Amazon DynamoDB y RDS para MySQL.
Me complace anunciar que Amazon RDS para MySQL zero-ETL con Amazon Redshift ya está disponible para el público en general. Esta versión también incluye nuevas funciones, como filtrado de datos, compatibilidad con múltiples integraciones y la capacidad de configurar integraciones zero-ETL en su plantilla de AWS CloudFormation.
En esta publicación, le mostraré cómo comenzar a filtrar y consolidar datos en varias bases de datos y almacenes de datos. Para obtener una guía paso a paso sobre cómo configurar integraciones ETL cero, consulte esta publicación de blog para obtener una descripción de cómo configurar una para Aurora MySQL-Compatible, que ofrece una experiencia muy similar.
Filtrado de datos
La mayoría de las empresas, sin importar su tamaño, pueden beneficiarse de agregar filtros a sus trabajos ETL. Un caso de uso típico es reducir los costos de procesamiento y almacenamiento de datos al seleccionar solo el subconjunto de datos necesarios para replicar de sus bases de datos de producción. Otro es excluir información de identificación personal (PII) del conjunto de datos de un informe. Por ejemplo, una empresa de atención médica podría querer excluir información confidencial de pacientes al replicar datos para crear informes agregados que analicen casos recientes de pacientes. De manera similar, una tienda de comercio electrónico podría querer poner los patrones de gasto de los clientes a disposición de su departamento de marketing, pero excluir cualquier información de identificación. Por el contrario, existen ciertos casos en los que es posible que no desee utilizar el filtrado, como cuando se ponen los datos a disposición de los equipos de detección de fraude que necesitan todos los datos casi en tiempo real para realizar inferencias. Estos son solo algunos ejemplos, por lo que lo aliento a experimentar y descubrir diferentes casos de uso que podrían aplicarse a su organización.
Hay dos formas de habilitar el filtrado en las integraciones de ETL cero: cuando crea la integración por primera vez o modificando una integración existente. De cualquier manera, encontrará esta opción en el paso “Fuente” del asistente de creación de ETL cero.
Para aplicar filtros, introduzca expresiones de filtro que se puedan utilizar para incluir o excluir bases de datos o tablas del conjunto de datos en el formato database*.table*. Puede añadir varias expresiones y se evaluarán en orden, de izquierda a derecha.
Si está modificando una integración existente, las nuevas reglas de filtrado se aplicarán a partir de ese momento después de que confirme los cambios y Amazon Redshift eliminará las tablas que ya no formen parte del filtro.
Si desea profundizar más, le recomiendo leer esta publicación de blog, que profundiza en cómo configurar filtros de datos para integraciones zero-ETL de Amazon Aurora, ya que los pasos y conceptos son muy similares.
Cree múltiples integraciones ETL cero desde una única base de datos
Ahora también puede configurar integraciones desde una única base de datos RDS for MySQL hasta cinco almacenes de datos de Amazon Redshift. El único requisito es que debe esperar a que la primera integración termine de configurarse correctamente antes de agregar otras.
Esto le permite compartir datos transaccionales con diferentes equipos y, al mismo tiempo, brindarles la propiedad de sus propios almacenes de datos para sus casos de uso específicos. Por ejemplo, también puede utilizar esto junto con el filtrado de datos para distribuir diferentes conjuntos de datos a clústeres de desarrollo, ensayo y producción de Amazon Redshift desde la misma base de datos de producción de Amazon RDS.
Otro escenario interesante en el que esto podría ser realmente útil es la consolidación de clústeres de Amazon Redshift mediante el uso de ETL cero para replicar en diferentes almacenes. También puede utilizar vistas materializadas de Amazon Redshift para explorar sus datos, potenciar sus paneles de Amazon Quicksight, compartir datos, entrenar trabajos en Amazon SageMaker y más.
Conclusión
Las integraciones Zero-ETL de RDS para MySQL con Amazon Redshift le permiten replicar datos para realizar análisis casi en tiempo real sin necesidad de crear y administrar canales de datos complejos. Actualmente, está disponible de manera general con la capacidad de agregar expresiones de filtro para incluir o excluir bases de datos y tablas de los conjuntos de datos replicados. Ahora también puede configurar varias integraciones desde la misma base de datos de origen de RDS para MySQL a diferentes almacenes de Amazon Redshift o crear integraciones desde diferentes fuentes para consolidar datos en un solo almacén de datos.
Esta integración ETL cero está disponible para RDS para MySQL versiones 8.0.32 y posteriores, Amazon Redshift Serverless y tipos de instancias Amazon Redshift RA3 en regiones de AWS compatibles.
Además de utilizar la consola de administración de AWS, también puede configurar una integración ETL cero a través de la interfaz de línea de comandos de AWS (AWS CLI) y utilizando un SDK de AWS como boto3, el SDK oficial de AWS para Python.
Consulte la documentación para obtener más información sobre cómo trabajar con integraciones ETL cero.
GIPHY App Key not set. Please check settings