|
Hoy anunciamos la próxima generación de Amazon SageMaker, que es una plataforma unificada para datos, análisis e inteligencia artificial que reúne capacidades de análisis y aprendizaje automático de AWS ampliamente adoptadas. En esencia, se encuentra SageMaker Unified Studio (versión preliminar), un entorno único de desarrollo de datos e IA para exploración, preparación e integración de datos, procesamiento de big data, análisis SQL rápido, desarrollo y capacitación de modelos y desarrollo de aplicaciones de IA generativa. Este anuncio incluye Amazon SageMaker Lakehouse, una capacidad que unifica datos en lagos y almacenes de datos, lo que le ayuda a crear potentes aplicaciones de análisis, inteligencia artificial y aprendizaje automático (AI/ML) en una sola copia de datos.
Además de estos lanzamientos, me complace anunciar las capacidades de permisos y catálogo de datos en Amazon SageMaker Lakehouse, que le ayudarán a conectarse, descubrir y administrar permisos para fuentes de datos de forma centralizada.
Hoy en día, las organizaciones almacenan datos en varios sistemas para optimizarlos para casos de uso específicos y requisitos de escala. Esto a menudo da como resultado datos aislados en lagos de datos, almacenes de datos, bases de datos y servicios de transmisión. Los analistas y científicos de datos enfrentan desafíos cuando intentan conectarse y analizar datos de estas diversas fuentes. Deben configurar conectores especializados para cada fuente de datos, administrar múltiples políticas de acceso y, a menudo, recurrir a la copia de datos, lo que genera mayores costos y posibles inconsistencias en los datos.
La nueva capacidad aborda estos desafíos al simplificar el proceso de conexión a fuentes de datos populares, catalogarlas, aplicar permisos y hacer que los datos estén disponibles para su análisis a través de SageMaker Lakehouse y Amazon Athena. Puede utilizar AWS Glue Data Catalog como un único almacén de metadatos para todas las fuentes de datos, independientemente de su ubicación. Esto proporciona una vista centralizada de todos los datos disponibles.
Las conexiones de origen de datos se crean una vez y se pueden reutilizar, por lo que no es necesario configurar conexiones repetidamente. A medida que se conecta a las fuentes de datos, las bases de datos y las tablas se catalogan y registran automáticamente en AWS Lake Formation. Una vez catalogadas, usted otorga acceso a esas bases de datos y tablas a los analistas de datos, para que no tengan que pasar por pasos separados para conectarse a cada fuente de datos y no tengan que conocer los secretos de las fuentes de datos integradas. Los permisos de Lake Formation se pueden utilizar para definir políticas de control de acceso detalladas (FGAC) en lagos de datos, almacenes de datos y fuentes de datos de procesamiento de transacciones en línea (OLTP), lo que proporciona una aplicación coherente al realizar consultas con Athena. Los datos permanecen en su ubicación original, lo que elimina la necesidad de transferencias o duplicaciones de datos costosas y que consumen mucho tiempo. Puede crear o reutilizar conexiones de fuentes de datos existentes en Data Catalog y configurar conectores integrados para múltiples fuentes de datos, incluidos Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Aurora, Amazon DynamoDB (versión preliminar), Google BigQuery y más. .
Comenzando con la integración entre Athena y Lake Formation
Para mostrar esta capacidad, utilizo un entorno preconfigurado que incorpora Amazon DynamoDB como fuente de datos. El entorno está configurado con tablas y datos apropiados para demostrar eficazmente la capacidad. Utilizo SageMaker Unified Studio (vista previa) interfaz para esta demostración.
Para empezar, voy a SageMaker Unified Studio (vista previa) a través del dominio de Amazon SageMaker. Aquí es donde puedes crear y gestionar proyectos, que sirven como espacios de trabajo compartidos. Estos proyectos permiten a los miembros del equipo colaborar, trabajar con datos y desarrollar modelos de aprendizaje automático juntos. La creación de un proyecto configura automáticamente las bases de datos de AWS Glue Data Catalog, establece un catálogo para los datos de Redshift Managed Storage (RMS) y aprovisiona los permisos necesarios.
Para administrar proyectos, puede ver una lista completa de proyectos existentes seleccionando Explorar todos los proyectoso puede crear un nuevo proyecto eligiendo Crear proyecto. Utilizo dos proyectos existentes: grupo de ventas, donde los administradores tienen privilegios de acceso total a todos los datos, y proyecto de marketing, donde los analistas operan con permisos de acceso restringido a los datos. Esta configuración ilustra eficazmente el contraste entre los niveles de acceso administrativo y de usuario limitado.
En este paso, configuro un catálogo federado para la fuente de datos de destino, que es Amazon DynamoDB. voy a Datos en el panel de navegación izquierdo y elija el + (más) firmar para Agregar datos. yo elijo Agregar conexión y luego elijo Próximo.
yo elijo AmazonDynamoDB y elige Próximo.
Introduzco los datos y elijo Agregar datos. Ahora tengo el catálogo federado de Amazon DynamoDB creado en SageMaker Lakehouse. Aquí es donde su administrador le da acceso mediante políticas de recursos. Ya configuré las políticas de recursos en este entorno. Ahora, le mostraré cómo funcionan los controles de acceso detallados en SageMaker Unified Studio (vista previa).
Empiezo seleccionando el grupo de ventas proyecto, que es donde los administradores mantienen y tienen acceso completo a los datos del cliente. Este conjunto de datos contiene campos como códigos postales, identificaciones de clientes y números de teléfono. Para analizar estos datos, puedo ejecutar consultas usando Consulta con Atenea.
Al seleccionar Consulta con Ateneael Editor de consultas se inicia automáticamente, lo que proporciona un espacio de trabajo donde puedo redactar y ejecutar consultas SQL en Lakehouse. Este entorno de consulta integrado ofrece una experiencia perfecta para la exploración y el análisis de datos.
En la segunda parte, paso a proyecto-de-mercadeo para mostrar lo que experimenta un analista cuando ejecuta sus consultas y observa que los permisos de control de acceso detallados están implementados y funcionando.
En la segunda parte, demuestro la perspectiva de un analista cambiando a la proyecto-de-mercadeo ambiente. Esto nos ayuda a verificar que los permisos de control de acceso detallados se implementen correctamente y restringen de manera efectiva el acceso a los datos según lo previsto. A través de consultas de ejemplo podemos observar cómo los analistas interactúan con los datos estando sujetos a los controles de seguridad establecidos.
Usando el Consulta con Atenea opción, ejecuto una instrucción SELECT en la tabla para verificar los controles de acceso. Los resultados confirman que, como era de esperar, sólo puedo ver el código postal y id_cliente columnas, mientras que el teléfono La columna permanece restringida según los permisos configurados.
Con estas nuevas capacidades de permisos y catálogo de datos en Amazon SageMaker Lakehouse, ahora puede optimizar sus operaciones de datos, mejorar la gobernanza de la seguridad y acelerar el desarrollo de IA/ML mientras mantiene la integridad y el cumplimiento de los datos en todo su ecosistema de datos.
Ahora disponible
El catálogo de datos y los permisos en Amazon SageMaker Lakehouse simplifica el análisis interactivo a través de consultas federadas cuando se conecta a un catálogo unificado y permisos con el catálogo de datos en múltiples fuentes de datos, lo que proporciona un lugar único para definir y aplicar políticas de seguridad detalladas en lagos de datos, almacenes de datos, y fuentes de datos OLTP para una experiencia de consulta de alto rendimiento.
Puede utilizar esta capacidad en las regiones de AWS EE.UU. Este (Norte de Virginia), EE.UU. Oeste (Oregón), EE.UU. Este (Ohio), Europa (Irlanda) y Asia Pacífico (Tokio).
Para comenzar con esta nueva capacidad, visite la documentación de Amazon SageMaker Lakehouse.
GIPHY App Key not set. Please check settings