|
Hoy anunciamos dos nuevas capacidades de evaluación en Amazon Bedrock que pueden ayudarlo a optimizar las pruebas y mejorar las aplicaciones de IA generativa:
Amazon Bedrock Knowledge Bases ahora admite la evaluación RAG (versión preliminar) – Ahora puede ejecutar una evaluación automática de la base de conocimientos para evaluar y optimizar aplicaciones de generación aumentada de recuperación (RAG) utilizando las bases de conocimientos de Amazon Bedrock. El proceso de evaluación utiliza un modelo de lenguaje grande (LLM) para calcular las métricas de la evaluación. Con las evaluaciones RAG, puede comparar diferentes configuraciones y ajustarlas para obtener los resultados que necesita para su caso de uso.
La evaluación del modelo Amazon Bedrock ahora incluye LLM como juez (versión preliminar) – Ahora puede realizar pruebas y evaluar otros modelos con calidad humana a una fracción del costo y el tiempo de realizar evaluaciones humanas.
Estas nuevas capacidades facilitan el inicio de la producción al proporcionar una evaluación rápida y automatizada de aplicaciones impulsadas por IA, acortando los ciclos de retroalimentación y acelerando las mejoras. Estas evaluaciones evalúan múltiples dimensiones de calidad, incluida la corrección, la utilidad y criterios de IA responsable, como el rechazo de respuestas y la nocividad.
Para que sea fácil e intuitivo, los resultados de la evaluación proporcionan explicaciones en lenguaje natural para cada puntuación en el resultado y en la consola, y las puntuaciones están normalizadas de 0 a 1 para facilitar la interpretación. Las rúbricas se publican en su totalidad con las indicaciones del juez en la documentación para que los no científicos puedan entender cómo se obtienen las puntuaciones.
Veamos cómo funcionan en la práctica.
Uso de evaluaciones RAG en las bases de conocimiento de Amazon Bedrock
En la consola de Amazon Bedrock, elijo Evaluaciones en el Inferencia y evaluación sección. Ahí veo lo nuevo Bases de conocimiento pestaña.
yo elijo Crearintroduzca un nombre y una descripción para la evaluación y seleccione el Modelo evaluador que calculará las métricas. En este caso utilizo Anthropic. Soneto de Claude 3.5.
Selecciono la base de conocimientos a evaluar. Anteriormente creé una base de conocimientos que contenía solo el archivo PDF de la Guía para desarrolladores de AWS Lambda. De esta manera, para la evaluación puedo hacer preguntas sobre el servicio AWS Lambda.
Puedo evaluar la función de recuperación sola o el flujo de trabajo completo de recuperación y generación. Esta elección afecta las métricas que están disponibles en el siguiente paso. Elijo evaluar tanto la recuperación como la generación de respuestas y selecciono el modelo a utilizar. En este caso utilizo Anthropic. Claude 3 Haiku. También puedo usar Amazon Bedrock Guardrails y ajustar la configuración de inferencia en tiempo de ejecución eligiendo la opción configuraciones enlace después del modelo del generador de respuesta.
Ahora puedo elegir qué métricas evaluar. yo selecciono Utilidad y Exactitud en el Calidad sección y Nocividad en el Métricas de IA responsables sección.
Ahora, selecciono el conjunto de datos que se utilizará para la evaluación. Este es el JSONL archivo que preparé y cargué en Amazon Simple Storage Service (Amazon S3) para esta evaluación. Cada línea proporciona una conversación y para cada mensaje hay una respuesta de referencia.
Especifico la ubicación de S3 en la que almacenar los resultados de la evaluación. El trabajo de evaluación requiere que el depósito S3 esté configurado con los permisos de uso compartido de recursos entre orígenes (CORS) descritos en la Guía del usuario de Amazon Bedrock.
Para acceder al servicio, necesito crear o proporcionar un rol de servicio de AWS Identity and Access Management (IAM) que Amazon Bedrock pueda asumir y que permita el acceso a los recursos de Amazon Bedrock y Amazon S3 utilizados por la evaluación.
Después de unos minutos, la evaluación se completa y examino los resultados. La duración real de una evaluación depende del tamaño del conjunto de datos solicitado y del generador y los modelos de evaluador utilizados.
En la cima, el Resumen de métricas evalúa el desempeño general utilizando la puntuación promedio en todas las conversaciones.
Después de eso, el Desglose de métricas de generación me brinda detalles sobre cada una de las métricas de evaluación seleccionadas. Mi conjunto de datos de evaluación era pequeño (dos líneas), por lo que no hay una gran distribución para observar.
Desde aquí, también puedo ver conversaciones de ejemplo y cómo fueron calificadas. Para ver todas las conversaciones, puedo visitar el resultado completo en el depósito de S3.
Tengo curiosidad por qué Utilidad está ligeramente por debajo de uno. Amplío y hago zoom Conversaciones de ejemplo para Utilidad. Allí veo el resultado generado, la verdad básica que proporcioné con el conjunto de datos de evaluación y la puntuación. Elijo la partitura para ver el razonamiento del modelo. Según el modelo, hubiera ayudado tener información más profunda. Los modelos realmente son jueces estrictos.
Comparación de evaluaciones RAG
El resultado de una evaluación de la base de conocimientos puede ser difícil de interpretar por sí solo. Por este motivo, la consola permite comparar resultados de múltiples evaluaciones para comprender las diferencias. De esta manera, podrás entender si estás mejorando o no en las métricas que te interesan.
Por ejemplo, anteriormente realicé otras dos evaluaciones de la base de conocimientos. Están relacionados con bases de conocimiento con las mismas fuentes de datos pero diferentes configuraciones de fragmentación y análisis y diferentes modelos de integración.
Selecciono las dos evaluaciones y elijo Comparar. Para ser comparable en la consola, las evaluaciones deben cubrir las mismas métricas.
En el De un vistazo pestaña, veo una comparación visual de las métricas usando un gráfico de araña. En este caso, los resultados no son muy diferentes. La principal diferencia es la Fidelidad puntaje.
En el Detalles de evaluación En la pestaña, encuentro una comparación detallada de los resultados de cada métrica, incluida la diferencia en las puntuaciones.
Uso de LLM como juez en la evaluación del modelo Amazon Bedrock (vista previa)
En la consola de Amazon Bedrock, elijo Evaluaciones en el Inferencia y evaluación sección del panel de navegación. después de elegir Crearselecciono el nuevo Automático: Modelo como juez opción.
Introduzco un nombre y una descripción para la evaluación y selecciono el Modelo evaluador que se utiliza para generar métricas de evaluación. yo uso anthropic Soneto de Claude 3.5.
Luego selecciono el Modelo de generadorque es el modelo que quiero evaluar. La evaluación del modelo puede ayudarme a comprender si un modelo más pequeño y rentable satisface las necesidades de mi caso de uso. yo uso anthropic Claude 3 Haiku.
En la siguiente sección selecciono el Métrica para evaluar. yo selecciono Utilidad y Exactitud en el Calidad sección y Nocividad en el Métricas de IA responsables sección.
En el Conjuntos de datos En la sección especifico la ubicación de Amazon S3 donde se almacena mi conjunto de datos de evaluación y la carpeta en un depósito de S3 donde se almacenan los resultados del trabajo de evaluación del modelo.
Para el conjunto de datos de evaluación, preparé otro archivo JSONL. Cada línea proporciona una sugerencia y una respuesta de referencia. Tenga en cuenta que el formato es diferente en comparación con las evaluaciones de la base de conocimientos.
Finalmente, puedo elegir un rol de servicio de IAM que le dé a Amazon Bedrock acceso a los recursos utilizados por este trabajo de evaluación.
Completo la creación de la evaluación. Después de unos minutos, la evaluación está completa. De manera similar a la evaluación de la base de conocimientos, el resultado comienza con una Resumen de métricas.
El Desglose de métricas de generación detalla cada métrica y puedo consultar los detalles para ver algunos ejemplos de indicaciones. miro Utilidad para comprender mejor la puntuación de la evaluación.
El modelo procesó correctamente las indicaciones de la evaluación y puedo aplicar los resultados a mi caso de uso. Si mi aplicación necesita gestionar mensajes similares a los utilizados en esta evaluación, el modelo evaluado es una buena opción.
Cosas que debes saber
Estas nuevas capacidades de evaluación están disponibles en versión preliminar en las siguientes regiones de AWS:
- Evaluación RAG en EE.UU. Este (Norte de Virginia), EE.UU. Oeste (Oregón), Asia Pacífico (Mumbai, Sydney, Tokio), Canadá (Centro), Europa (Frankfurt, Irlanda, Londres, París) y América del Sur (São Paulo)
- LLM como juez en EE. UU. Este (Norte de Virginia), EE. UU. Oeste (Oregón), Asia Pacífico (Mumbai, Seúl, Sydney, Tokio), Canadá (Central), Europa (Frankfurt, Irlanda, Londres, París, Zurich ), y América del Sur (São Paulo)
Tenga en cuenta que los modelos de evaluador disponibles dependen de la Región.
El precio se basa en el precio estándar de Amazon Bedrock para la inferencia de modelos. No hay cargos adicionales por los trabajos de evaluación en sí. Los modelos del evaluador y los modelos evaluados se facturan de acuerdo con su precio normal bajo demanda o aprovisionado. Las plantillas de mensajes de juez son parte de los tokens de entrada y esos mensajes de juez se pueden encontrar en la documentación de AWS para mayor transparencia.
El servicio de evaluación está optimizado para contenido en inglés en el momento del lanzamiento, aunque los modelos subyacentes pueden funcionar con contenido en otros idiomas que admitan.
Para comenzar, visite la consola de Amazon Bedrock. Para obtener más información, puede acceder a la documentación de Amazon Bedrock y enviar comentarios a AWS re: Publicación para Amazon Bedrock. Puede encontrar contenido técnico detallado y descubrir cómo nuestras comunidades de constructores utilizan Amazon Bedrock en comunidad.aws. ¡Háganos saber qué construye con estas nuevas capacidades!
— Danilo
GIPHY App Key not set. Please check settings