|
En Re: Invent 2024, lanzamos las tablas de Amazon S3, la primera tienda de objetos en la nube con incorporado Apache iceberg Apoyo para optimizar el almacenamiento de datos tabulares a escala, y Amazon Sagemaker Lakehouse para simplificar el análisis y la IA con un Data Lakehouse unificado, abierto y seguro. También previsimos la integración de tablas S3 con los servicios de análisis de Amazon Web Services (AWS) para que usted transmita, consulte y visualice datos de tablas S3 utilizando Amazon Athena, Amazon Data Firehose, Amazon EMR, AWS Glue, Amazon Redshifty Amazon Quicksight.
Nuestros clientes querían simplificar la gestión y la optimización de su almacenamiento Apache Iceberg, lo que condujo al desarrollo de tablas S3. Estaban trabajando simultáneamente para desglosar los silos de datos que impiden la colaboración de análisis y la generación de información utilizando el Sagemaker Lakehouse. Cuando se combinan con tablas S3 y Sagemaker Lakehouse, además de la integración incorporada con servicios de análisis AWS, pueden obtener una plataforma integral unificando el acceso a múltiples fuentes de datos que permiten flujos de trabajo tanto analíticos como de aprendizaje automático (ML).
Hoy estamos anunciando la disponibilidad general de Integración de tablas de Amazon S3 con Amazon Sagemaker Lakehouse Para proporcionar acceso a datos de tablas S3 unificadas en varios motores y herramientas de análisis. Puede acceder a Sagemaker Lakehouse desde Amazon Sagemaker Unified Studio, un único entorno de desarrollo de datos y IA que reúne la funcionalidad y las herramientas de AWS Analytics y AI/ML Services. Todos los datos de tablas S3 integrados con Sagemaker Lakehouse se pueden consultar con SageMaker Unified Studio y motores como Amazon Athena, Amazon EMR, Amazon Redshift y los motores compatibles con Apache Iceberg como Apache Spark o Pyiceberg.
Con esta integración, puede simplificar la creación de flujos de trabajo analíticos seguros donde puede leer y escribir en tablas S3 y unirse con datos en almacenes de datos de desplazamiento rojo de Amazon y fuentes de datos de terceros y federados, como Amazon Dynamodb o PostgreSQL.

También puede configurar y administrar centralmente los permisos de acceso de grano fino en los datos en las tablas S3 junto con otros datos en Sagemaker Lakehouse y aplicarlos constantemente en todos los motores de análisis y consultas.
Integración de tablas S3 con Sagemaker Lakehouse en acción
Para comenzar, vaya a la consola de Amazon S3 y elija Cubos de mesa del panel de navegación y seleccione Habilitar la integración Para acceder a cubos de tabla desde AWS Analytics Services.

Ahora puede crear su cubo de mesa para integrarse con Sagemaker Lakehouse. Para obtener más información, visite comenzar con las tablas S3 en la documentación de AWS.
1. Crea una mesa con Amazon Athena en la consola de Amazon S3
Puede crear una tabla, llenarla con datos y consultarlo directamente desde la consola Amazon S3 usando Amazon Athena con solo unos pocos pasos. Seleccione un cubo de tabla y seleccione Crear mesa con Athenao puede seleccionar una tabla existente y seleccionar Mesa de consulta con Athena.

Cuando desee crear una tabla con Athena, primero debe especificar un espacio de nombres para su tabla. El espacio de nombres en un cubo de tabla S3 es equivalente a una base de datos con pegamento AWS, y usa el espacio de nombres de la tabla como la base de datos en sus consultas de Athena.

Elija un espacio de nombres y seleccione Crear mesa con Athena. Va a la Editor de consultas En la consola de Athena. Puede crear una tabla en su cubo de tabla S3 o datos de consulta en la tabla.

2. Consulta con Sagemaker Lakehouse en el estudio unificado de Sagemaker
Ahora puede acceder a datos unificados en lagos de datos S3, almacenes de datos de desplazamiento rojo, fuentes de datos de terceros y federadas en Sagemaker Lakehouse directamente desde Sagemaker Unified Studio.
Para comenzar, vaya a la consola Sagemaker y cree un dominio y proyecto de estudio unificado de Sagemaker utilizando un perfil de proyecto de muestra: Análisis de datos y desarrollo del modelo AI-ML. Para obtener más información, visite Crear un dominio de estudio unificado de Amazon Sagemaker en la documentación de AWS.
Después de que se crea el proyecto, navegue a la descripción general del proyecto y desplácese hacia abajo hasta los detalles del proyecto para anotar el rol de Nombre de recursos de Amazon (ARN) del proyecto.

Vaya a la consola de formación de AWS Lake y otorgue permisos para usuarios y roles de gestión de identidad y acceso de AWS (IAM). En el en el Directores Sección, seleccione el
anotado en el párrafo anterior. Elegir Recursos de catálogo de datos con nombre en el LF-Tags o recursos de catálogo Sección y seleccione el nombre de la tabla de tabla para el que creó Catálogos. Para obtener más información, visite la descripción general de los permisos de formación del lago en la documentación de AWS.

Cuando regrese a Sagemaker Unified Studio, puede ver su proyecto de cubo de mesa debajo Casa del lago en el Datos Menú en el panel de navegación izquierda de la página del proyecto. Cuando elijas Comportamientopuede seleccionar cómo consultar los datos de su cubo de tabla en Amazon Athena, Amazon Redshift o Jupyterlab Notebook.

Cuando elijas Consulta con Athenase va automáticamente a Editor de consultas Para ejecutar el lenguaje de consulta de datos (DQL) y las consultas del lenguaje de manipulación de datos (DML) en las tablas S3 usando Athena.
Aquí hay una consulta de muestra usando Athena:
select * from "s3tablecatalog/s3tables-integblog-bucket”.”proddb"."customer" limit 10;

Para consultar con Amazon RedShift, debe configurar los recursos de cómputo sin servidor de Amazon RedShift para el análisis de consultas de datos. Y luego elijas Consulta con desplazamiento al rojo y ejecutar SQL en el Editor de consultas. Si desea usar el cuaderno JupyterLab, debe crear un nuevo espacio Jupyterlab en Amazon EMR Servidor.
3. Unir datos de otras fuentes con datos de tablas S3
Con los datos de tablas S3 ahora disponibles en Sagemaker Lakehouse, puede unirse a él con datos de almacenes de datos, fuentes de procesamiento de transacciones en línea (OLTP) como base de datos relacional o no relacional, tablas de iceberg y otras fuentes de terceros para obtener información más completa y más profunda y más profundas.
Por ejemplo, puede agregar conexiones a fuentes de datos como Amazon DocumentDB, Amazon DynamoDB, Amazon Redshift, PostgreSQL, MySQL, Google BigQuery, o copo de nieve y combina datos usando scripts SQL sin extracto, transformación y carga (ETL).

Ahora puede ejecutar la consulta SQL en el editor de consultas para unirse a los datos en las tablas S3 con los datos en DynamodB.
Aquí hay una consulta de muestra para unirse entre Athena y Dynamodb:
select * from "s3tablescatalog/s3tables-integblog-bucket"."blogdb"."customer",
"dynamodb1"."default"."customer_ddb" where cust_id=pid limit 10;

Para obtener más información sobre esta integración, visite la integración de tablas de Amazon S3 con Amazon Sagemaker Lakehouse en la documentación de AWS.
Ahora disponible
La integración de las tablas S3 con Sagemaker Lakehouse ahora está generalmente disponible en todas las regiones de AWS donde hay tablas S3 disponibles. Para obtener más información, visite la página del producto S3 Tablas y la página de Sagemaker Lakehouse.
Pruebe las tablas S3 en el estudio unificado de Sagemaker hoy y envíe comentarios a AWS Re: Post para Amazon S3 y AWS re: Post para Amazon Sagemaker o a través de sus contactos habituales de soporte de AWS.
En la celebración anual del lanzamiento de Amazon S3, presentaremos más lanzamientos increíbles para Amazon S3 y Amazon Sagemaker. Para obtener más información, únase al Evento del día de AWS Pi el 14 de marzo.
– Canal
–
¿Cómo está el blog de noticias? Tomar esto Encuesta de 1 minuto!
(Este encuesta está alojado por una empresa externa. AWS maneja su información como se describe en el Aviso de privacidad de AWS. AWS será propietario de los datos recopilados a través de esta encuesta y no compartirá la información recopilada con los encuestados).