in

Nuevo: procese archivos PDF, documentos de Word e imágenes con Amazon Comprehend para IDP | Servicios web de Amazon

Nuevo: procese archivos PDF, documentos de Word e imágenes con Amazon Comprehend para IDP | Servicios web de Amazon

Hoy anunciamos una nueva característica de Amazon Comprehend para el procesamiento inteligente de documentos (IDP). Esta función le permite clasificar y extraer entidades de documentos PDF, archivos de Microsoft Word e imágenes directamente desde Amazon Comprehend sin necesidad de extraer el texto primero.

Muchos clientes necesitan procesar documentos que tienen un formato semiestructurado, como imágenes de recibos escaneados o declaraciones de impuestos en formato PDF. Hasta hoy, esos clientes primero necesitaban preprocesar esos documentos usando herramientas de reconocimiento óptico de caracteres (OCR) para extraer el texto. Luego, podrían usar Amazon Comprehend para clasificar y extraer entidades de esos archivos preprocesados.

Ahora, con Amazon Comprehend for IDP, los clientes pueden procesar sus documentos semiestructurados, como imágenes PDF, docx, PNG, JPG o TIFF, así como documentos de texto sin formato, con una sola llamada a la API. Esta nueva característica combina OCR y las capacidades existentes de procesamiento de lenguaje natural (NLP) de Amazon Comprehend para clasificar y extraer entidades de los documentos. La API de clasificación de documentos personalizados le permite organizar documentos en categorías o clases, y la API de reconocimiento de entidades con nombre personalizado le permite extraer entidades de documentos como códigos de productos o entidades específicas del negocio. Por ejemplo, una compañía de seguros ahora puede procesar las reclamaciones de los clientes escaneados con menos llamadas a la API. Mediante el uso de la API de reconocimiento de entidades de Amazon Comprehend, pueden extraer el número de cliente de las reclamaciones y utilizar la API del clasificador personalizado para clasificar la reclamación en las diferentes categorías de seguro: hogar, automóvil o personal.

A partir de hoy, las API de Amazon Comprehend for IDP están disponibles para la inferencia de archivos en tiempo real, así como para el procesamiento por lotes asíncrono en grandes conjuntos de documentos. Esta característica simplifica la canalización de procesamiento de documentos y reduce el esfuerzo de desarrollo.

Empezando
Puede utilizar Amazon Comprehend for IDP desde la consola de administración de AWS, los SDK de AWS o la interfaz de línea de comandos (CLI) de AWS.

En esta demostración, verá cómo procesar de forma asíncrona un archivo semiestructurado con un clasificador personalizado. Para extraer entidades, los pasos son diferentes y puede aprender cómo hacerlo consultando la documentación.

Para procesar un archivo con un clasificador, primero deberá entrenar un clasificador personalizado. Puede seguir los pasos de la Guía para desarrolladores de Amazon Comprehend. Debe entrenar este clasificador con datos de texto sin formato.

Después de entrenar su clasificador personalizado, puede clasificar documentos mediante operaciones asíncronas o síncronas. Para usar la operación síncrona para analizar un solo documento, debe crear un punto final para ejecutar análisis en tiempo real usando un modelo personalizado. Puede encontrar más información sobre el análisis en tiempo real en la documentación. Para esta demostración, utilizará la operación asíncrona, colocará los documentos para clasificar en un depósito de Amazon Simple Storage Service (Amazon S3) y ejecutará un trabajo por lotes de análisis.

Para comenzar a clasificar documentos por lotes desde la consola, en la página de Amazon Comprehend, vaya a Trabajos de análisis y entonces crear trabajo.

Crear nuevo trabajo

Luego puede configurar el nuevo trabajo de análisis. Primero, ingrese un nombre y seleccione Clasificación personalizada y el clasificador personalizado que creó anteriormente.

Luego puede configurar los datos de entrada. Primero, seleccione la ubicación S3 para esos datos. En esa ubicación, puede colocar sus archivos PDF, imágenes y documentos de Word. Dado que está procesando documentos semiestructurados, debe elegir Un documento por expediente. Si desea anular la configuración de Amazon Comprehend para extraer y analizar el documento, puede configurar el Entrada avanzada de documentos opciones

Datos de entrada para el trabajo de análisis

Después de configurar los datos de entrada, puede seleccionar dónde se debe almacenar la salida de este análisis. Además, debe otorgar permisos de acceso para que este trabajo de análisis lea y escriba en las ubicaciones de Amazon S3 especificadas y luego estará listo para crear el trabajo.

Configuración del trabajo de clasificación

El trabajo tarda unos minutos en ejecutarse, según el tamaño de la entrada. Cuando el trabajo esté listo, puede comprobar los resultados de salida. Puede encontrar los resultados en la ubicación de Amazon S3 que especificó cuando creó el trabajo.

En la carpeta de resultados, encontrará un .out archivo para cada uno de los archivos semiestructurados clasificados por Amazon Comprehend. los .out file es un JSON, en el que cada línea representa una página del documento. En el amazon-textract-output directorio, encontrará una carpeta para cada archivo clasificado, y dentro de esa carpeta, hay un archivo por página del archivo original. Esos archivos de página contienen los resultados de la clasificación. Para obtener más información sobre los resultados de las clasificaciones, consulte la página de documentación.

Salida del trabajo

Disponible ahora
Puede comenzar a clasificar y extraer entidades de archivos semiestructurados como PDF, imágenes y documentos de Word de forma asincrónica y sincrónica hoy desde Amazon Comprehend en todas las regiones donde está disponible Amazon Comprehend. Obtenga más información sobre este nuevo lanzamiento en la Guía para desarrolladores de Amazon Comprehend.

Marcia



Fuente

Written by TecTop

Se filtra el registro de cambios de MIUI 14 con todas sus nuevas características

Se filtra el registro de cambios de MIUI 14 con todas sus nuevas características

El dron DJI Mini 3 Pro sobre un fondo azul

El DJI Mini 3 se ha filtrado, y podría ser el mejor dron para principiantes