in

Simplifique el análisis y la IA/ML con el nuevo Amazon SageMaker Lakehouse | Servicios web de Amazon

Hoy, estoy muy emocionado de anunciar la disponibilidad general de Amazon SageMaker Lakehouse, una capacidad que unifica datos en los lagos de datos de Amazon Simple Storage Service (Amazon S3) y los almacenes de datos de Amazon Redshift, lo que le ayuda a crear análisis, inteligencia artificial y aprendizaje automático potentes. (AI/ML) en una única copia de datos. SageMaker Lakehouse es parte de la próxima generación de Amazon SageMaker, que es una plataforma unificada para datos, análisis e inteligencia artificial, que reúne capacidades de análisis y aprendizaje automático de AWS ampliamente adoptadas y ofrece una experiencia integrada para análisis e inteligencia artificial.

Los clientes quieren hacer más con los datos. Para avanzar más rápido en su recorrido analítico, están eligiendo el almacenamiento y las bases de datos adecuados para almacenar sus datos. Los datos se distribuyen en lagos de datos, almacenes de datos y diferentes aplicaciones, lo que crea silos de datos que dificultan su acceso y utilización. Esta fragmentación genera copias de datos duplicadas y canales de datos complejos, lo que a su vez aumenta los costos para la organización. Además, los clientes se ven obligados a utilizar herramientas y motores de consulta específicos, ya que la forma y el lugar donde se almacenan los datos limitan sus opciones. Esta restricción obstaculiza su capacidad para trabajar con los datos como preferirían. Por último, el acceso inconsistente a los datos dificulta que los clientes tomen decisiones comerciales informadas.

SageMaker Lakehouse aborda estos desafíos ayudándole a unificar datos en los lagos de datos de Amazon S3 y los almacenes de datos de Amazon Redshift. Le ofrece la flexibilidad de acceder y consultar datos in situ con todos los motores y herramientas compatibles con Apache Iceberg. Con SageMaker Lakehouse, puede definir permisos detallados de forma centralizada y aplicarlos en múltiples servicios de AWS, simplificando el intercambio de datos y la colaboración. Incorporar datos a su SageMaker Lakehouse es fácil. Además de acceder sin problemas a los datos de sus lagos de datos y almacenes de datos existentes, puede utilizar ETL cero desde bases de datos operativas como Amazon Aurora, Amazon RDS para MySQL, Amazon DynamoDB, así como aplicaciones como Salesforce y SAP. SageMaker Lakehouse se adapta a sus entornos existentes.

Comience con SageMaker Lakehouse
Para esta demostración, utilizo un entorno preconfigurado que tiene múltiples fuentes de datos de AWS. Voy a la consola de Amazon SageMaker Unified Studio (vista previa), que proporciona una experiencia de desarrollo integrada para todos sus datos e inteligencia artificial. Con Unified Studio, puede acceder y consultar sin problemas datos de varias fuentes a través de SageMaker Lakehouse, mientras utiliza herramientas familiares de AWS para análisis e IA/ML.

Aquí es donde puedes crear y gestionar proyectos, que sirven como espacios de trabajo compartidos. Estos proyectos permiten a los miembros del equipo colaborar, trabajar con datos y desarrollar modelos de IA juntos. La creación de un proyecto configura automáticamente las bases de datos de AWS Glue Data Catalog, establece un catálogo para los datos de Redshift Managed Storage (RMS) y aprovisiona los permisos necesarios. Puede comenzar creando un nuevo proyecto o continuar con un proyecto existente.

Para crear un nuevo proyecto, elijo Crear proyecto.

Tengo 2 opciones de perfil de proyecto para construir una casa en el lago e interactuar con ella. El primero es Análisis de datos y desarrollo de modelos AI-MLdonde puede analizar datos y crear modelos de aprendizaje automático e inteligencia artificial generativa con tecnología de Amazon EMR, AWS Glue, Amazon Athena, Amazon SageMaker AI y SageMaker Lakehouse. El segundo es análisis SQLdonde puede analizar sus datos en SageMaker Lakehouse usando SQL. Para esta demostración, procedo con análisis SQL.

Introduzco un nombre de proyecto en el Nombre del proyecto campo y elija análisis SQL bajo Perfil del proyecto. yo elijo Continuar.

Introduzco los valores para todos los parámetros en Estampación. Introduzco los valores para crear mi casa del lago bases de datos. Introduzco los valores para crear mi Desplazamiento al rojo sin servidor recursos. Finalmente, ingreso un nombre para mi catálogo en Catálogo de la casa del lago.

En el siguiente paso, reviso los recursos y elijo Crear proyecto.

Una vez creado el proyecto, observo los detalles del proyecto.

voy a Datos en el panel de navegación y elija el signo + (más) para Agregar datos. yo elijo Crear catálogo para crear un nuevo catálogo y elegir Agregar datos.

Después de crear el catálogo RMS, elijo Construir en el panel de navegación y luego elija Editor de consultas bajo Análisis e integración de datos para crear un esquema en el catálogo RMS, cree una tabla y luego cargue la tabla con datos de ventas de muestra.

Después de ingresar las consultas SQL en las celdas designadas, elijo Seleccionar fuente de datos en el menú desplegable derecho para establecer una conexión de base de datos con el almacén de datos de Amazon Redshift. Esta conexión me permite ejecutar las consultas y recuperar los datos deseados de la base de datos.

Una vez que la conexión a la base de datos se establece exitosamente, elijo ejecutar todo para ejecutar todas las consultas y monitorear el progreso de la ejecución hasta que se muestren todos los resultados.

Para esta demostración, utilizo dos catálogos preconfigurados adicionales. Un catálogo es un contenedor que organiza las definiciones de objetos de la casa del lago, como esquemas y tablas. El primero es un catálogo de lago de datos de Amazon S3 (catálogo-de-prueba-s3) que almacena registros de clientes, que contienen información demográfica y transaccional detallada. El segundo es un catálogo de la casa del lago (churn_lakehouse) dedicado a almacenar y gestionar datos de abandono de clientes. Esta integración crea un entorno unificado donde puedo analizar el comportamiento de los clientes junto con las predicciones de abandono.

Desde el panel de navegación, elijo Datos y ubicar mis catálogos bajo el casa del lago sección. SageMaker Lakehouse ofrece múltiples opciones de análisis, que incluyen Consulta con Atenea, Consulta con corrimiento al rojoy Abrir en el cuaderno de Jupyter Lab.

Tenga en cuenta que debe elegir Análisis de datos y desarrollo de modelos AI-ML perfil al crear un proyecto, si desea utilizar Abrir en el cuaderno de Jupyter Lab opción. si tu eliges Abrir en el cuaderno de Jupyter Labpuede interactuar con SageMaker Lakehouse utilizando Apache Spark a través de EMR 7.5.0 o AWS Glue 5.0 configurando el catálogo REST de Iceberg, lo que le permite procesar datos en sus lagos y almacenes de datos de manera unificada.

Así es como se ven las consultas usando el cuaderno Jupyter Lab:

sigo eligiendo Consulta con Atenea. Con esta opción, puedo utilizar la capacidad de consulta sin servidor de Amazon Athena para analizar los datos de ventas directamente dentro de SageMaker Lakehouse. Al seleccionar Consulta con Ateneael Editor de consultas se inicia automáticamente, lo que proporciona un espacio de trabajo donde puedo redactar y ejecutar consultas SQL en Lakehouse. Este entorno de consulta integrado ofrece una experiencia perfecta para la exploración y el análisis de datos, completa con resaltado de sintaxis y funciones de autocompletado para mejorar la productividad.

yo también puedo usar Consulta con corrimiento al rojo opción para ejecutar consultas SQL en la casa del lago.

SageMaker Lakehouse ofrece una solución integral para la gestión y el análisis de datos modernos. Al unificar el acceso a los datos a través de múltiples fuentes, admitir una amplia gama de motores de análisis y aprendizaje automático y proporcionar controles de acceso detallados, SageMaker Lakehouse lo ayuda a aprovechar al máximo sus activos de datos. Ya sea que esté trabajando con lagos de datos en Amazon S3, almacenes de datos en Amazon Redshift o aplicaciones y bases de datos operativas, SageMaker Lakehouse brinda la flexibilidad y seguridad que necesita para impulsar la innovación y tomar decisiones basadas en datos. Puede utilizar cientos de conectores para integrar datos de diversas fuentes. Además, puede acceder y consultar datos in situ con capacidades de consulta federadas en fuentes de datos de terceros.

Ahora disponible
Puede acceder a SageMaker Lakehouse a través de la consola de administración de AWS, las API, la interfaz de línea de comandos de AWS (AWS CLI) o los SDK de AWS. También puede acceder a través de AWS Glue Data Catalog y AWS Lake Formation. SageMaker Lakehouse está disponible en EE.UU. Este (Norte de Virginia), EE.UU. Oeste (Oregón), EE.UU. Este (Ohio), Europa (Irlanda), Europa (Frankfurt), Europa (Estocolmo), Asia Pacífico (Sídney), Asia Pacífico (Hong Kong), Asia Pacífico (Tokio) y Asia Pacífico (Singapur) Regiones de AWS.

Para obtener información sobre precios, visite los precios de Amazon SageMaker Lakehouse.

Para obtener más información sobre Amazon SageMaker Lakehouse y cómo puede simplificar el análisis de datos y los flujos de trabajo de IA/ML, visite la documentación de Amazon SageMaker Lakehouse.

—Esra

Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Los jugadores pueden pasar más tiempo viendo juegos que jugando

Los jugadores pueden pasar más tiempo viendo juegos que jugando

En demanda, Apple es acusada de espiar a sus empleados

En demanda, Apple es acusada de espiar a sus empleados