|
Hoy anunciamos la disponibilidad de Amazon Bedrock Model Distillation en versión preliminar, que automatiza el proceso de creación de un modelo destilado para su caso de uso específico al generar respuestas a partir de un modelo básico (FM) grande llamado modelo docente y ajusta uno más pequeño. FM llamó a un modelo de estudiante con las respuestas generadas. Utiliza técnicas de síntesis de datos para mejorar la respuesta de un modelo docente. Luego, Amazon Bedrock aloja el modelo destilado final para inferencia, lo que le brinda un modelo más rápido y rentable con una precisión cercana al modelo del maestro, para su caso de uso.
Los clientes están entusiasmados de utilizar los FM más potentes y precisos de Amazon Bedrock para sus aplicaciones de IA generativa. Pero para algunos casos de uso, la latencia asociada con estos modelos no es la ideal. Además, los clientes buscan una mejor relación precio-rendimiento a medida que escalan sus aplicaciones de IA generativa a muchos miles de millones de interacciones de usuarios. Para reducir la latencia y ser más rentable para su caso de uso, los clientes están recurriendo a modelos más pequeños. Sin embargo, para algunos casos de uso, los modelos más pequeños no pueden proporcionar una precisión óptima. El ajuste fino de los modelos requiere un conjunto de habilidades adicionales para crear conjuntos de datos etiquetados de alta calidad para aumentar la precisión del modelo para los casos de uso del cliente.
Con Amazon Bedrock Model Distillation, puede aumentar la precisión de un modelo de estudiante de menor tamaño para imitar un modelo de docente de mayor rendimiento con el proceso de transferencia de conocimientos. Puede crear modelos resumidos que, para un caso de uso determinado, son hasta cinco veces más rápidos y hasta un 75 por ciento menos costosos que los modelos grandes originales, con una pérdida de precisión de menos del dos por ciento para casos de uso como la generación aumentada de recuperación (RAG), mediante transferir conocimientos de un modelo de profesor de su elección a un modelo de estudiante de la misma familia.
¿Cómo funciona?
Amazon Bedrock Model Distillation genera respuestas a partir de modelos de docentes, mejora la generación de respuestas a partir de un modelo de docente al agregar síntesis de datos patentada y ajusta un modelo de estudiante.
Amazon Bedrock emplea varias técnicas de síntesis de datos para mejorar la generación de respuestas a partir del modelo docente y crear conjuntos de datos de ajuste fino de alta calidad. Estas técnicas se adaptan a casos de uso específicos. Por ejemplo, Amazon Bedrock puede aumentar el conjunto de datos de entrenamiento generando mensajes similares, aumentando efectivamente el volumen del conjunto de datos de ajuste.
Alternativamente, puede producir respuestas docentes de alta calidad utilizando pares de respuesta rápida proporcionados como ejemplos de oro. En la versión preliminar, Amazon Bedrock Model Distillation admite modelos Anthropic, Meta y Amazon.
Comience con la destilación modelo Amazon Bedrock
Para comenzar, vaya a la consola de Amazon Bedrock y elija Modelos personalizados en el panel de navegación izquierdo. Ahora tienes tres métodos de personalización: ajuste fino, destilación y entrenamiento previo continuo.
Elegir Crear trabajo de destilación para comenzar a ajustar su modelo utilizando la destilación de modelos.
Ingrese el nombre de su modelo destilado y el nombre del trabajo.
Luego, elija el modelo de profesor y, según su elección del modelo de profesor, seleccione un modelo de estudiante de la lista de modelos de estudiantes disponibles. El modelo profesor y alumno deben ser de la misma familia. Por ejemplo, si elige el modelo Meta Llama 3.1 405B Instruct como modelo de maestro, solo puede elegir el modelo Llama 3.1 70B o 8B Instruct como modelo de estudiante.
Para generar datos sintéticos, establezca el valor de Longitud máxima de respuestaun parámetro de inferencia para determinar la respuesta generada por el modelo docente. Elija el conjunto de datos de entrada de destilación ubicado en su depósito de Amazon Simple Storage Service (Amazon S3). Este conjunto de datos de entrada presenta las indicaciones o los pares dorados de indicación-respuesta para su caso de uso. Los archivos de entrada deben estar en el formato de conjunto de datos según su modelo. Para obtener más información, visite Prepare los conjuntos de datos en la Guía del usuario de Amazon Bedrock.
Luego, elige Crear trabajo de destilación después de configurar la ubicación de Amazon S3 para almacenar los datos de las métricas de salida de destilación y los permisos para escribir en Amazon S3 en su nombre.
Una vez creado correctamente el trabajo de destilación, puede realizar un seguimiento del progreso de la capacitación en el Empleos pestaña, y el modelo estará disponible en la Modelos pestaña.
Uso de datos de producción con Amazon Bedrock Model Distillation
Si desea reutilizar sus datos de producción para la destilación y omitir la generación de respuestas de los docentes nuevamente, puede hacerlo activando el registro de invocaciones de modelos para recopilar registros de invocaciones, datos de entrada de modelos y datos de salida de modelos para todas las invocaciones en su cuenta de AWS utilizada en Amazon Bedrock. . Agregar metadatos de solicitud le ayuda a filtrar fácilmente los registros de invocación en un momento posterior.
request_params = {
'modelId': 'meta.llama3-1-405b-instruct-v1:0',
'messages': [
{
'role': 'user',
'content': [
{
"text": "What is model distillation in generative AI?"
}
]
}
},
'requestMetadata': {
"ProjectName": "myLlamaDistilledModel",
"CodeName": "myDistilledCode"
}
}
response = bedrock_runtime_client.converse(**request_params)
pprint(response)
---
'output': {'message': {'content': [{'text': '\n''\n'
'Model distillation is a technique in generative AI that involves training a smaller,'
'more efficient model (the '"student") to mimic the behavior of a larger, '
'more complex model '(the "teacher"). The goal of model distillation is to'
'transfer the knowledge and capabilities of the teacher model to the student model,'
'allowing the student to perform similarly well on a given task, but with much less computational'
'resources and memory.\n'
'\n'}]
}
}
A continuación, cuando utilice Amazon Bedrock Model Distillation, seleccione un modelo de profesor cuya precisión desee buscar para su caso de uso y un modelo de estudiante que desee ajustar. Luego, dé acceso a Amazon Bedrock para leer sus registros de invocación. Aquí, puede especificar los filtros de metadatos de solicitud para que solo se lean registros específicos, que sean válidos para su caso de uso, para ajustar el modelo de estudiante. El modelo de profesor seleccionado para la destilación y el modelo utilizado en los registros de invocación deben ser el mismo si desea que Amazon Bedrock reutilice las respuestas de los registros de invocación.
Inferencia de su modelo destilado
Antes de usar el modelo destilado, debe comprar Provisioned Throughput para Amazon Bedrock y luego usar el modelo destilado resultante para realizar inferencias. Cuando compra Rendimiento aprovisionado, puede seleccionar un plazo de compromiso, elegir la cantidad de unidades modelo y verificar los costos estimados por hora, día y mes.
Puede completar el trabajo de destilación del modelo utilizando las API de AWS, los SDK de AWS o la interfaz de línea de comandos de AWS (AWS CLI). Para obtener más información sobre el uso de AWS CLI, visite Ejemplos de código para la personalización del modelo en la documentación de AWS.
Cosas que debes saber
Aquí hay algunas cosas importantes que debe saber.
- La destilación de modelos tiene como objetivo aumentar la precisión del modelo de estudiante para que coincida con el rendimiento del modelo de profesor para su caso de uso específico. Antes de comenzar la destilación de modelos, le recomendamos que evalúe diferentes modelos de docente para su caso de uso y seleccione el modelo de docente que funcione bien para su caso de uso.
- Recomendamos optimizar sus indicaciones para su caso de uso en el que considere que la precisión del modelo del profesor es aceptable. Envíe estas indicaciones como datos de entrada de destilación.
- Para elegir un modelo de estudiante correspondiente para ajustar, evalúe los perfiles de latencia de diferentes opciones de modelo de estudiante para su caso de uso. El modelo destilado final tendrá el mismo perfil de latencia que el modelo de estudiante que seleccione.
- Si un modelo de estudiante específico ya funciona bien para su caso de uso, le recomendamos utilizar el modelo de estudiante tal como está en lugar de crear un modelo resumido.
¡Únete a la vista previa!
Amazon Bedrock Model Distillation ahora está disponible en versión preliminar en las regiones de AWS Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón). Consulte la lista completa de regiones para futuras actualizaciones. Para obtener más información, visite Model Distillation en la Guía del usuario de Amazon Bedrock.
Usted paga el costo de generar datos sintéticos mediante el modelo de maestro y el costo de ajustar el modelo de estudiante durante la destilación del modelo. Una vez creado el modelo destilado, usted paga mensualmente el costo de almacenar el modelo destilado. La inferencia del modelo destilado se cobra en Rendimiento aprovisionado por hora por unidad de modelo. Para obtener más información, visite la página de precios de Amazon Bedrock.
Pruebe Amazon Bedrock Model Distillation en el Consola Amazon Bedrock hoy y enviar comentarios a AWS re: Publicación para Amazon Bedrock o a través de sus contactos habituales de AWS Support.
— chany
GIPHY App Key not set. Please check settings