in

Nuevo AWS Glue 4.0: motores nuevos y actualizados, más formatos de datos y más | Servicios web de Amazon

AWS Glue es una herramienta escalable sin servidor que lo ayuda a acelerar el desarrollo y la ejecución de sus cargas de trabajo de integración de datos y ETL. Hoy lanzamos Glue 4.0, con motores actualizados, compatibilidad con formatos de datos adicionales, compatibilidad con Ray y mucho más.

Antes de sumergirme, solo unas palabras sobre el control de versiones. A diferencia de la mayoría de los servicios de AWS, donde el equipo de servicio posee y tiene control total sobre las API, Glue incluye una colección de bibliotecas, motores y herramientas desarrollados por la comunidad de código abierto. Algunos de estos componentes no mantienen una estricta compatibilidad con versiones anteriores, a menudo en busca de la eficiencia. Para asegurarse de que los cambios en los componentes no afecten sus trabajos de Glue, debe seleccionar una versión particular de Glue cuando cree el trabajo.

Cada versión de Glue incluye beneficios de rendimiento y confiabilidad además de las funciones adicionales, y debe planear actualizar sus trabajos con el tiempo para aprovechar todo lo que Glue tiene para ofrecer.

Sumérgete en Glue
Echemos un vistazo a las novedades de Glue 4.0:

Motores actualizados – Esta versión de Glue incluye Pitón 3.10 y Apache chispa 3.3.0. Ambos motores incluyen correcciones de errores y mejoras de rendimiento; Spark incluye nuevas características como filtrado de tiempo de ejecución a nivel de fila, mensajes de error mejoradosadicional funciones integradas, y mucho más. Glue y Amazon EMR utilizan el mismo tiempo de ejecución optimizado de Spark, que se optimizó para ejecutarse en la nube de AWS y puede ser 2 o 3 veces más rápido que la versión básica de código abierto.

Nuevos complementos de motor – Glue 4.0 agrega soporte nativo para el complemento Cloud Shuffle Service para Spark para ayudarlo a escalar el uso de su disco, y Ejecución de consulta adaptativa para optimizar dinámicamente sus consultas a medida que se ejecutan.

Soporte de pandas pandas es una herramienta de manipulación y análisis de datos de código abierto que se basa en Python. Es fácil de aprender e incluye todo tipo de cosas interesantes y útiles. funciones de manipulación de datos.

Nuevos formatos de datos – Ya sea que esté construyendo un lago de datos o un almacén de datos, Glue 4.0 ahora maneja nuevos formatos de datos de código abierto para fuentes y destinos, con soporte para apache hudi, iceberg apachey lago delta. Para obtener más información sobre estas nuevas opciones y formatos, lea Primeros pasos con Apache Hudi usando AWS Glue mediante la implementación de conceptos clave de diseño.

Todo lo demas – Además de los elementos anteriores, Glue 4.0 también incluye el lector vectorizado Parquet, con soporte para tipos de datos y codificaciones adicionales. Ha sido actualizado para usar log4j 2 y ya no depende de log4j 1.

Disponible ahora
Glue 4.0 está disponible hoy en EE. UU. Este (Ohio, N. Virginia), EE. UU. Oeste (N. California, Oregón), África (Ciudad del Cabo), Asia Pacífico (Hong Kong, Yakarta, Mumbai, Osaka, Seúl, Singapur, Sydney , Tokio), Canadá (Central), Europa (Fráncfort, Irlanda, Londres, Milán, París, Estocolmo), Oriente Medio (Bahréin) y América del Sur (Sao Paulo) Regiones de AWS.

jeff;



Fuente

Written by TecTop

Elon Musk afirma que Apple ha «dejado en su mayoría» de ofrecer anuncios en Twitter y está haciendo demandas de moderación

Más de 1,000 juegos de PlayStation con descuento en la nueva oferta de PSN