|
Los metadatos de Amazon S3 ahora proporcionan una visibilidad completa en todos sus objetos existentes en sus cubos de Amazon Simple Storage Service (Amazon S3), expandiéndose más allá de los nuevos objetos y cambios. Con esta cobertura ampliada, puede analizar y consultar metadatos para toda su huella de almacenamiento S3.
Hoy, muchos clientes confían en Amazon S3 para almacenar datos no estructurados a escala. Para comprender lo que hay en un cubo, a menudo necesita construir y mantener sistemas personalizados que expliquen objetos, rastrear cambios y administrar metadatos con el tiempo. Estos sistemas son caros de mantener y difíciles de mantener al día a medida que crecen los datos.
Desde el lanzamiento de metadatos S3 en Re: Invent 2024, ha podido consultar metadatos de objetos nuevos y actualizados utilizando tablas de metadatos en lugar de confiar en el inventario de Amazon S3 o las API a nivel de objeto como ListObjects
, HeadObject
y GetObject
—As que puede introducir latencia e impactar flujos de trabajo aguas abajo.
Para que sea más fácil trabajar con estos metadatos ampliados, S3 Metadatos presenta tablas de inventario en vivo que funcionan con herramientas familiares basadas en SQL. Después de que sus objetos existentes se rellenan en el sistema, cualquier actualización como cargas o deleciones generalmente aparece dentro de una hora en sus tablas de inventario en vivo.
Con Tablas de inventario en vivo de S3 Metadataobtiene una tabla Apache Iceberg totalmente administrada que proporciona una instantánea completa y actual de los objetos y sus metadatos en su cubo, incluidos los objetos existentes, gracias al soporte de relleno. Estas tablas se actualizan automáticamente dentro de una hora de cambios, como cargas o deleciones, por lo que se mantiene actualizado. Puede usarlos para identificar objetos con propiedades específicas, como datos no cifrados, etiquetas faltantes o clases de almacenamiento particulares, y para admitir análisis, optimización de costos, auditoría y gobernanza.
Tablas de diario de metadatos S3anteriormente conocidas como tablas de metadatos S3, se habilitan automáticamente cuando configura las tablas de inventario en vivo, proporciona una vista casi real de los cambios a nivel de objeto en su cubo, incluidas cargas, deleciones y actualizaciones de metadatos. Estas tablas son ideales para la actividad de auditoría, rastrear el ciclo de vida de los objetos y generar información basada en eventos. Por ejemplo, puede usarlos para averiguar qué objetos se eliminaron en las últimas 24 horas, identificar al solicitante haciendo el máximo PUT
operaciones o monitorear actualizaciones a metadatos de objetos con el tiempo.
Las tablas de metadatos S3 se crean en un nombre de espacio de nombres que es similar al nombre de su cubo para un descubrimiento más fácil. Las tablas se almacenan en cubos de mesa AWS, agrupados por cuenta y región. Después de habilitar metadatos S3 para un cubo S3 de propósito general, el sistema crea y mantiene estas tablas para usted. No necesita administrar los procesos de compactación o recolección de basura: las tablas S3 se encargan de las tareas de mantenimiento de la tabla en segundo plano.
Estas nuevas tablas ayudan a evitar esperar el descubrimiento de metadatos antes de que pueda comenzar el procesamiento, lo que las hace ideales para las cargas de trabajo de análisis y aprendizaje automático (ML) a gran escala. Al consultar los metadatos con anticipación, puede programar trabajos de GPU de manera más eficiente y reducir el tiempo de inactividad en entornos intensivos en cómputo.
Veamos cómo funciona
Para ver cómo funciona esto en la práctica, configuro los metadatos S3 para un cubo de propósito general utilizando la consola de administración de AWS.
Después de elegir un cubo de propósito general, elijo el Metadatos pestaña, luego elijo Crear configuración de metadatos.
Para Mesa de diarioPuedo elegir el Cifrado del lado del servidor opción y el Expiración de registro período. Para Mesa de inventario en vivoElijo Activado y puedo seleccionar el Cifrado del lado del servidor opciones.
Configuro Expiración de registro en la tabla del diario. Los registros de la tabla de revistas caducan después del número especificado de días, 365 días (un año) en mi ejemplo.
Entonces, elijo Crear configuración de metadatos.
S3 Metadata crea la tabla de inventario en vivo y la tabla de revistas. En el Mesa de inventario en vivo sección, puedo observar el Estado de la tabla: El sistema comienza inmediatamente a rellenar La tabla con metadatos de objeto existentes. Puede tomar entre minutos y horas. El tiempo exacto depende de la cantidad de objetos que tenga en su cubo S3.
Mientras espero, también carga y elimino objetos para generar datos en la tabla de revistas.
Luego, navego a Amazon Athena para comenzar a consultar las nuevas mesas.
Yo elijo Mesa de consulta con Athena para comenzar a consultar la mesa. Puedo elegir entre un par de consultas predeterminadas en la consola.
En Athena, observo la estructura de las tablas en el Awsdatacatalog Fuente de datos Y empiezo con una consulta corta para verificar cuántos registros están disponibles en la tabla de la revista. Ya tengo 6.488 entradas:
SELECT count(*) FROM "b_aws-news-blog-metadata-inventory"."journal";
# _col0
1 6488
Aquí hay un par de consultas de ejemplo que probé en la tabla del diario:
# Query deleted objects in last 24 hours
# Use is_delete_marker=true for versioned buckets and record_type="DELETE" otherwise
SELECT bucket, key, version_id, last_modified_date
FROM "s3tablescatalog/aws-s3"."b_aws-news-blog-metadata-inventory"."journal"
WHERE last_modified_date >= (current_date - interval '1' day) AND is_delete_marker = true;
# bucket key version_id last_modified_date is_delete_marker
1 aws-news-blog-metadata-inventory .build/index-build/arm64-apple-macosx/debug/index/store/v5/records/G0/NSURLSession.h-JET61D329FG0
2 aws-news-blog-metadata-inventory .build/index-build/arm64-apple-macosx/debug/index/store/v5/records/G5/cdefs.h-PJ21EUWKMWG5
3 aws-news-blog-metadata-inventory .build/index-build/arm64-apple-macosx/debug/index/store/v5/records/FX/buf.h-25EDY57V6ZXFX
4 aws-news-blog-metadata-inventory .build/index-build/arm64-apple-macosx/debug/index/store/v5/records/G6/NSMeasurementFormatter.h-3FN8J9CLVMYG6
5 aws-news-blog-metadata-inventory .build/index-build/arm64-apple-macosx/debug/index/store/v5/records/G8/NSXMLDocument.h-1UO2NUJK0OAG8
# Query recent PUT requests IP addresses
SELECT source_ip_address, count(source_ip_address)
FROM "s3tablescatalog/aws-s3"."b_aws-news-blog-metadata-inventory"."journal"
GROUP BY source_ip_address;
# source_ip_address _col1
1 my_laptop_IP_address 12488
# Query S3 Lifecycle expired objects in last 7 days
SELECT bucket, key, version_id, last_modified_date, record_timestamp
FROM "s3tablescatalog/aws-s3"."b_aws-news-blog-metadata-inventory"."journal"
WHERE requester="s3.amazonaws.com" AND record_type="DELETE" AND record_timestamp > (current_date - interval '7' day);
(not applicable to my demo bucket)
Los resultados me ayudaron a rastrear los objetos específicos que se eliminaron, incluidas sus marcas de tiempo.
Ahora, miro la mesa de inventario en vivo:
# Distribution of object tags
SELECT object_tags, count(object_tags)
FROM "s3tablescatalog/aws-s3"."b_aws-news-blog-metadata-inventory"."inventory"
GROUP BY object_tags;
# object_tags _col1
1 {Source=Swift} 1
2 {Source=swift} 1
3 {} 12486
# Query storage class and size for specific tags
SELECT storage_class, count(*) as count, sum(size) / 1024 / 1024 as usage
FROM "s3tablescatalog/aws-s3"."b_aws-news-blog-metadata-inventory"."inventory"
GROUP BY object_tags['pii=true'], storage_class;
# storage_class count usage
1 STANDARD 124884 165
# Find objects with specific user defined metadata
SELECT key, last_modified_date, user_metadata
FROM "s3tablescatalog/aws-s3"."b_aws-news-blog-metadata-inventory"."inventory"
WHERE cardinality(user_metadata) > 0 ORDER BY last_modified_date DESC;
(not applicable to my demo bucket)
Estos son solo algunos ejemplos de lo que es posible con los metadatos S3. Sus consultas preferidas dependerán de sus casos de uso. Consulte el análisis de los metadatos de Amazon S3 con Amazon Athena y Amazon Quicksight en el Blog de almacenamiento de AWS para obtener más ejemplos.
Precios y disponibilidad
El inventario en vivo de S3 Metadata y las mesas de revistas están disponibles hoy en US East (N. Virginia), East East (Ohio) y US West (Oregon).
Las tablas de la revista se cobran $ 0.30 por millón de actualizaciones. Esta es una caída del 33 por ciento de nuestro precio anterior.
Para las tablas de inventario, hay un costo de relleno único de $ 0.30 para un millón de objetos para configurar la tabla y generar metadatos para los objetos existentes. No hay costos adicionales si su cubo tiene menos de mil millones de objetos. Para cubos con más de mil millones de objetos, hay una tarifa mensual de $ 0.10 por millón de objetos por mes.
Como de costumbre, la página de precios de Amazon S3 tiene todos los detalles.
Con S3 Metadata Live Inventory y Tablas de revistas, puede reducir el tiempo y el esfuerzo necesarios para explorar y administrar grandes conjuntos de datos. Obtiene una vista actualizada de su almacenamiento y un registro de cambios, y ambas están disponibles como mesas de iceberg que puede consultar a pedido. Puede descubrir datos más rápido, Flujos de trabajo de cumplimiento de energía y optimizar sus tuberías de ML.
Puede comenzar habilitando el inventario de metadatos en su cubo S3 a través de la consola AWS, la interfaz de línea de comandos AWS (AWS CLI) o AWS SDKS. Cuando están habilitados, la revista y las tablas de inventario en vivo se crean y actualizan automáticamente. Para obtener más información, visite la página de documentación de metadatos S3.
Actualización del 25/07/2025: revisó algún código y lista de regiones actualizadas.