La evaluación del modelo Amazon Bedrock ya está disponible de forma generalizada | Servicios web de Amazon

La capacidad de evaluación del modelo Amazon Bedrock que vimos previamente en AWS re: Inventar 2023 ya está disponible de forma generalizada. Esta nueva capacidad le ayuda a incorporar IA generativa en su aplicación al brindarle el poder de seleccionar el modelo básico que le brinde los mejores resultados para su caso de uso particular. como mi colega Antje explica en su publicación (Evalúe, compare y seleccione los mejores modelos de base para su caso de uso en Amazon Bedrock):

Las evaluaciones de modelos son fundamentales en todas las etapas de desarrollo. Como desarrollador, ahora tiene herramientas de evaluación disponibles para crear aplicaciones de inteligencia artificial (IA) generativa. Puedes empezar experimentando con diferentes modelos en el entorno del patio de recreo. Para iterar más rápido, agregue evaluaciones automáticas de los modelos. Luego, cuando se prepare para un lanzamiento inicial o un lanzamiento limitado, puede incorporar revisiones humanas para ayudar a garantizar la calidad.

Recibimos muchos comentarios maravillosos y útiles durante la vista previa y los usamos para completar las características de esta nueva capacidad en preparación para el lanzamiento de hoy. Hablaré de eso en un momento. Como resumen rápido, estos son los pasos básicos (consulte la publicación de Antje para obtener un recorrido completo):

Crear un trabajo de evaluación de modelo – Seleccione el método de evaluación (automático o humano), seleccione uno de los modelos básicos disponibles, elija un tipo de tarea y elija las métricas de evaluación. Puede elegir precisión, solidez y toxicidad para una evaluación automática, o cualquier métrica deseada (amabilidad, estilo y cumplimiento de la voz de la marca, por ejemplo) para una evaluación humana. Si eliges una evaluación humana, puedes utilizar tu propio equipo de trabajo o puedes optar por un equipo administrado por AWS. Hay cuatro tipos de tareas integradas, así como un tipo personalizado (no se muestra):

Después de seleccionar el tipo de tarea, elige las métricas y los conjuntos de datos que desea utilizar para evaluar el rendimiento del modelo. Por ejemplo, si selecciona Clasificación de textopuede evaluar la precisión y/o solidez con respecto a su propio conjunto de datos o uno integrado:

Como puede ver arriba, puede usar un conjunto de datos integrado o preparar uno nuevo en líneas JSON (JSONL) formato. Cada entrada debe incluir un mensaje y puede incluir una categoría. La respuesta de referencia es opcional para todas las configuraciones de evaluación humana y para algunas combinaciones de tipos de tareas y métricas para la evaluación automática:

{
  "prompt" : "Bobigny is the capitol of",
  "referenceResponse" : "Seine-Saint-Denis",
  "category" : "Capitols"
}

Usted (o sus expertos locales en la materia) pueden crear un conjunto de datos que utilice preguntas de atención al cliente, descripciones de productos o material de ventas que sea específico para su organización y su caso de uso. Los conjuntos de datos integrados incluyen Toxicidad real, ATREVIDO, TIRANO SAURIO REX, WikiTexto-2, Gigapalabra, boolq, Preguntas naturales, Preguntas y respuestas sobre preguntas y respuestasy Reseñas de ropa de comercio electrónico para mujeres. Estos conjuntos de datos están diseñados para probar tipos específicos de tareas y métricas, y pueden elegirse según corresponda.

Ejecutar trabajo de evaluación de modelo – Inicie el trabajo y espere a que se complete. Puede revisar el estado de cada uno de sus trabajos de evaluación de modelos desde la consola y también puede acceder al estado utilizando el nuevo GetEvaluationJob Función API:

Recuperar y revisar el informe de evaluación – Obtenga el informe y revise el rendimiento del modelo con respecto a las métricas que seleccionó anteriormente. Nuevamente, consulte la publicación de Antje para obtener una visión detallada de un informe de muestra.

Nuevas funciones para GA
Una vez aclarado todo esto, echemos un vistazo a las funciones que se agregaron en preparación para el lanzamiento de hoy:

Gestión de trabajos mejorada – Ahora puede detener un trabajo en ejecución mediante la consola o la nueva API de evaluación de modelo.

API de evaluación de modelos – Ahora puede crear y gestionar trabajos de evaluación de modelos mediante programación. Están disponibles las siguientes funciones:

CreateEvaluationJob – Crear y ejecutar un trabajo de evaluación de modelo utilizando los parámetros especificados en la solicitud de API, incluido un evaluationConfig y un inferenceConfig.
ListEvaluationJobs – Enumerar trabajos de evaluación de modelos, con filtrado y clasificación opcionales por hora de creación, nombre del trabajo de evaluación y estado.
GetEvaluationJob – Recuperar las propiedades de un trabajo de evaluación de modelo, incluido el estado (En curso, Terminado, Fallido, Paradao Interrumpido). Una vez completado el trabajo, los resultados de la evaluación se almacenarán en el URI de S3 que se especificó en el outputDataConfig propiedad suministrada a CreateEvaluationJob.
StopEvaluationJob – Detener un trabajo en curso. Una vez detenido, un trabajo no se puede reanudar y se debe crear de nuevo si desea volver a ejecutarlo.

Esta API de evaluación de modelos fue una de las funciones más solicitadas durante la vista previa. Puede usarlo para realizar evaluaciones a escala, tal vez como parte de un régimen de desarrollo o prueba para sus aplicaciones.

Seguridad mejorada – Ahora puede utilizar claves KMS administradas por el cliente para cifrar los datos de su trabajo de evaluación (si no utiliza esta opción, sus datos se cifran mediante una clave propiedad de AWS):

Acceso a más modelos – Además de los modelos basados en texto existentes de AI21 Labs, Amazon, Anthropic, Cohere y Meta, ahora tiene acceso a Claude 2.1:

Después de seleccionar un modelo, puede establecer la configuración de inferencia que se utilizará para el trabajo de evaluación del modelo:

Cosas que saber
Aquí hay un par de cosas que debe saber sobre esta nueva e interesante capacidad de Amazon Bedrock:

Precios – Paga por las inferencias que se realizan durante el curso de la evaluación del modelo, sin cargo adicional por las puntuaciones generadas algorítmicamente. Si utiliza la evaluación basada en humanos con su propio equipo, paga por las inferencias y $0,21 por cada tarea completada: un trabajador humano que envía una evaluación de un único mensaje y sus respuestas de inferencia asociadas en la interfaz de usuario de evaluación humana. El precio de las evaluaciones realizadas por un equipo de trabajo administrado por AWS se basa en el conjunto de datos, los tipos de tareas y las métricas que son importantes para su evaluación. Para obtener más información, consulte la página de precios de Amazon Bedrock.

Regiones – La evaluación del modelo está disponible en las regiones de AWS Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón).

Más GenAI – Visita nuestra nueva Espacio GenAI ¡Para obtener más información sobre este y otros anuncios que haremos hoy!

— jeff;

Fuente

Xiaomi HyperOS 3.1 podría debutar en el MWC 2026 con integración para productos de Apple

Samsung Electronics anuncia estrategia para la transición de la fabricación global a ‘fábricas impulsadas por IA’ para 2030

Samsung avanza Galaxy AI y su ecosistema conectado en MWC 2026

¿Llegará el G7X Mark IV en 2026? Go Tokura se burla de la tecnología de próxima generación

Historias destacadas: la ‘gran semana’ de Apple que se avecina, los colores del iPhone y más

Antrópico al Departamento de Defensa: Caer muerto

La evaluación del modelo Amazon Bedrock ya está disponible de forma generalizada | Servicios web de Amazon

AWS Security Hub Extended ofrece seguridad empresarial completa con soluciones seleccionadas de socios | Servicios web de Amazon

AWS Security Hub Extended ofrece seguridad empresarial completa con soluciones seleccionadas de socios | Servicios web de Amazon

Transforme el video en vivo para audiencias móviles con AWS Elemental Inference | Servicios web de Amazon

Resumen semanal de AWS: Claude Sonnet 4.6 en Amazon Bedrock, Kiro en las regiones de GovCloud, nuevos complementos de agentes y más (23 de febrero de 2026) | Servicios web de Amazon

Las instancias Amazon EC2 Hpc8a con procesadores AMD EPYC de quinta generación ya están disponibles | Servicios web de Amazon

Anuncio de Amazon SageMaker Inference para modelos personalizados de Amazon Nova | Servicios web de Amazon

Deja una respuestaCancelar la respuesta

Apple y Google ofrecen soporte para alertas de seguimiento no deseadas en iOS y Android

Las investigaciones muestran que la realidad virtual plantea riesgos para la privacidad de los niños: los padres no están tan preocupados como deberían