in

Presentamos los modelos Llama 3.2 de Meta en Amazon Bedrock: una nueva generación de visión multimodal y modelos livianos | Amazon Web Services

En julio, anunciamos la disponibilidad de los modelos Llama 3.1 en Amazon Bedrock. La tecnología de IA generativa está mejorando a una velocidad increíble y hoy estamos encantados de presentar los nuevos modelos Llama 3.2 de Meta en Amazon Bedrock.

Llama 3.2 ofrece una visión multimodal y modelos livianos que representan el último avance de Meta en modelos de lenguaje extenso (LLM) y brindan capacidades mejoradas y una aplicabilidad más amplia en varios casos de uso. Con un enfoque en la innovación responsable y la seguridad a nivel de sistema, estos nuevos modelos demuestran un rendimiento de vanguardia en una amplia gama de puntos de referencia de la industria e introducen características que lo ayudan a crear una nueva generación de experiencias de IA.

Estos modelos están diseñados para inspirar a los constructores con razonamiento de imágenes y son más accesibles para aplicaciones de vanguardia, desbloqueando más posibilidades con IA.

La colección de modelos Llama 3.2 se ofrece en varios tamaños, desde modelos livianos de parámetros 1B y 3B de solo texto adecuados para dispositivos de borde hasta modelos de parámetros 11B y 90B de tamaño pequeño y mediano capaces de realizar tareas de razonamiento sofisticadas, incluido el soporte multimodal para imágenes de alta resolución. Llama 3.2 11B y 90B son los primeros modelos de Llama que admiten tareas de visión, con una nueva arquitectura de modelo que integra representaciones de codificador de imágenes en el modelo de lenguaje. Los nuevos modelos están diseñados para ser más eficientes para cargas de trabajo de IA, con latencia reducida y rendimiento mejorado, lo que los hace adecuados para una amplia gama de aplicaciones.

Todos los modelos de Llama 3.2 admiten una longitud de contexto de 128K, lo que mantiene la capacidad de token expandida introducida en Llama 3.1. Además, los modelos ofrecen soporte multilingüe mejorado para ocho idiomas, incluidos inglés, alemán, francés, italiano, portugués, hindi, español y tailandés.

Además de los modelos Llama 3.1 8B, 70B y 405B con capacidad de texto, Llama 3.2 admite casos de uso multimodales. Ahora puede usar cuatro nuevos modelos Llama 3.2 (90B, 11B, 3B y 1B) de Meta en Amazon Bedrock para crear, experimentar y escalar sus ideas creativas:

Llama 3.2 90B Vision (entrada de texto + imagen) – El modelo más avanzado de Meta, ideal para aplicaciones de nivel empresarial. Este modelo se destaca en conocimientos generales, generación de textos extensos, traducción multilingüe, codificación, matemáticas y razonamiento avanzado. También incorpora capacidades de razonamiento de imágenes, lo que permite realizar tareas de comprensión de imágenes y razonamiento visual. Este modelo es ideal para los siguientes casos de uso: subtítulos de imágenes, recuperación de texto de imágenes, fundamentos visuales, respuestas a preguntas visuales y razonamiento visual, y respuestas a preguntas visuales de documentos.

Llama 3.2 11B Vision (entrada de texto + imagen) – Ideal para la creación de contenido, la inteligencia artificial conversacional, la comprensión del lenguaje y las aplicaciones empresariales que requieren razonamiento visual. El modelo demuestra un sólido desempeño en el resumen de texto, el análisis de sentimientos, la generación de código y el seguimiento de instrucciones, con la capacidad adicional de razonar sobre imágenes. Los casos de uso de este modelo son similares a la versión 90B: subtítulos de imágenes, recuperación de texto de imágenes, fundamento visual, respuesta visual a preguntas y razonamiento visual, y respuesta visual a preguntas de documentos.

Llama 3.2 3B (entrada de texto) – Diseñado para aplicaciones que requieren inferencias de baja latencia y recursos computacionales limitados. Se destaca en tareas de resumen de texto, clasificación y traducción de idiomas. Este modelo es ideal para los siguientes casos de uso: asistentes de escritura con tecnología de IA móvil y aplicaciones de servicio al cliente.

Llama 3.2 1B (entrada de texto) – El modelo más liviano de la colección de modelos Llama 3.2, perfecto para recuperación y resumen para dispositivos de borde y aplicaciones móviles. Este modelo es ideal para los siguientes casos de uso: gestión de información personal y recuperación de conocimiento multilingüe.

Además, Llama 3.2 está construido sobre la base de Pila de llamasuna interfaz estandarizada para crear componentes de cadenas de herramientas canónicas y aplicaciones de agentes, lo que hace que la creación y la implementación sean más fáciles que nunca. Los adaptadores y distribuciones de API de Llama Stack están diseñados para aprovechar de manera más eficaz las capacidades del modelo Llama y les brinda a los clientes la capacidad de comparar los modelos Llama con diferentes proveedores.

Meta ha probado Llama 3.2 en más de 150 conjuntos de datos de referencia que abarcan varios idiomas y ha realizado evaluaciones humanas exhaustivas, demostrando un rendimiento competitivo con otros modelos básicos líderes. Veamos cómo funcionan estos modelos en la práctica.

Uso de modelos Llama 3.2 en Amazon Bedrock
Para comenzar con los modelos Llama 3.2, navego a la consola de Amazon Bedrock y selecciono Acceso al modelo en el panel de navegación. Allí solicito acceso para los nuevos modelos de Llama 3.2: Llama 3.2 1B, 3B, 11B Vision y 90B Vision.

Para probar la nueva capacidad de visión, abro otra pestaña del navegador y descargo desde el Nuestro sitio web World in Data el Porcentaje de electricidad generada por energías renovables Gráfico en formato PNG. El gráfico tiene una resolución muy alta y lo redimensioné para que tuviera 1024 píxeles de ancho.

De vuelta en la consola Amazon Bedrock, elijo Charlar bajo Parques infantiles En el panel de navegación, seleccione Meta como la categoría y elija la Llama 3.2 90B Visión modelo.

Yo uso Seleccionar archivos Para seleccionar la imagen del gráfico redimensionado y utilizar este mensaje:

Based on this chart, which countries in Europe have the highest share?

Yo elijo Correr y el modelo analiza la imagen y devuelve sus resultados:

Uso de modelos Meta Llama 3.2 en la consola de Amazon Bedrock

También puedo acceder a los modelos de forma programática mediante la interfaz de línea de comandos de AWS (AWS CLI) y los SDK de AWS. En comparación con el uso de los modelos de Llama 3.1, solo necesito actualizar los identificadores de modelo como se describe en la documentación. También puedo usar el nuevo punto de conexión de inferencia entre regiones para las regiones de EE. UU. y la UE. Estos puntos de conexión funcionan para cualquier región dentro de EE. UU. y la UE respectivamente. Por ejemplo, los puntos de conexión de inferencia entre regiones para el modelo 90B Vision de Llama 3.2 son:

  • us.meta.llama3-2-90b-instruct-v1:0
  • eu.meta.llama3-2-90b-instruct-v1:0

Aquí hay un ejemplo de comando de AWS CLI que utiliza la API de Amazon Bedrock Converse. Utilizo el --query parámetro de la CLI para filtrar el resultado y mostrar solo el contenido de texto del mensaje de salida:

aws bedrock-runtime converse --messages '[{ "role": "user", "content": [ { "text": "Tell me the three largest cities in Italy." } ] }]' --model-id us.meta.llama3-2-90b-instruct-v1:0 --query 'output.message.content[*].text' --output text

En la salida, obtengo el mensaje de respuesta del "assistant".

The three largest cities in Italy are:

1. Rome (Roma) - population: approximately 2.8 million
2. Milan (Milano) - population: approximately 1.4 million
3. Naples (Napoli) - population: approximately 970,000

No es muy diferente si utiliza uno de los SDK de AWS. Por ejemplo, aquí se muestra cómo puede utilizar Python con el SDK de AWS para Python (Boto3) para analizar la misma imagen que en el ejemplo de la consola:

import boto3

MODEL_ID = "us.meta.llama3-2-90b-instruct-v1:0"
# MODEL_ID = "eu.meta.llama3-2-90b-instruct-v1:0"

IMAGE_NAME = "share-electricity-renewable-small.png"

bedrock_runtime = boto3.client("bedrock-runtime")

with open(IMAGE_NAME, "rb") as f:
    image = f.read()

user_message = "Based on this chart, which countries in Europe have the highest share?"

messages = [
    {
        "role": "user",
        "content": [
            {"image": {"format": "png", "source": {"bytes": image}}},
            {"text": user_message},
        ],
    }
]

response = bedrock_runtime.converse(
    modelId=MODEL_ID,
    messages=messages,
)
response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)

Los modelos de Llama 3.2 también están disponibles en Amazon SageMaker JumpStart, un centro de aprendizaje automático (ML) que facilita la implementación de modelos entrenados previamente mediante la consola o mediante programación a través de SDK de Python para SageMakerDesde SageMaker JumpStart, también puede acceder e implementar nuevos modelos de protección que pueden ayudar a clasificar el nivel de seguridad de las entradas (avisos) y salidas (respuestas) del modelo, incluido Llama Guard 3 11B Vision, que están diseñados para respaldar la innovación responsable y la seguridad a nivel de sistema.

Además, puede ajustar fácilmente los modelos Llama 3.2 1B y 3B con SageMaker JumpStart hoy mismo. Los modelos ajustados se pueden importar como modelos personalizados en Amazon Bedrock. El ajuste de la colección completa de modelos Llama 3.2 en Amazon Bedrock y Amazon SageMaker JumpStart estará disponible próximamente.

Los pesos disponibles públicamente de los modelos de Llama 3.2 facilitan la entrega de soluciones personalizadas para necesidades personalizadas. Por ejemplo, puede ajustar un modelo de Llama 3.2 para un caso de uso específico e incorporarlo a Amazon Bedrock como un modelo personalizado, lo que podría superar a otros modelos en tareas específicas del dominio. Ya sea que esté realizando ajustes para obtener un mejor rendimiento en áreas como la creación de contenido, la comprensión del lenguaje o el razonamiento visual, la disponibilidad de Llama 3.2 en Amazon Bedrock y SageMaker le permite crear capacidades de IA únicas y de alto rendimiento que pueden diferenciar sus soluciones.

Más información sobre la arquitectura del modelo Llama 3.2
Llama 3.2 se basa en el éxito de sus predecesores con una arquitectura avanzada diseñada para un rendimiento y una versatilidad óptimos:

Modelo de lenguaje autorregresivo – En esencia, Llama 3.2 utiliza una arquitectura de transformador optimizada, lo que le permite generar texto prediciendo el próximo token en función del contexto anterior.

Técnicas de ajuste fino – Las versiones optimizadas para instrucciones de Llama 3.2 emplean dos técnicas clave:

  • Ajuste fino supervisado (SFT): este proceso adapta el modelo para seguir instrucciones específicas y generar respuestas más relevantes.
  • Aprendizaje de refuerzo con retroalimentación humana (RLHF): esta técnica avanzada alinea los resultados del modelo con las preferencias humanas, mejorando la utilidad y la seguridad.

Capacidades multimodales – Para los modelos Vision 11B y 90B, Llama 3.2 introduce un nuevo enfoque para la comprensión de imágenes:

  • Los pesos del adaptador de razonamiento de imágenes entrenados por separado se integran con los pesos principales del LLM.
  • Estos adaptadores están conectados al modelo principal a través de mecanismos de atención cruzada. La atención cruzada permite que una sección del modelo se centre en partes relevantes de la salida de otro componente, lo que permite el flujo de información entre diferentes secciones del modelo.
  • Cuando se introduce una imagen, el modelo trata el proceso de razonamiento de la imagen como una operación de “uso de herramientas”, lo que permite un análisis visual sofisticado junto con el procesamiento de texto. En este contexto, el uso de herramientas es el término genérico que se utiliza cuando un modelo utiliza recursos o funciones externos para aumentar sus capacidades y completar tareas de manera más eficaz.

Inferencia optimizada – Todos los modelos admiten la atención de consultas agrupadas (GQA), lo que mejora la velocidad y la eficiencia de la inferencia, lo que resulta especialmente beneficioso para el modelo 90B más grande.

Esta arquitectura permite a Llama 3.2 gestionar una amplia gama de tareas, desde la generación y comprensión de texto hasta el razonamiento complejo y el análisis de imágenes, todo ello manteniendo un alto rendimiento y adaptabilidad en diferentes tamaños de modelos.

Cosas que debes saber
Los modelos Llama 3.2 de Meta ahora están disponibles de forma general en Amazon Bedrock en las siguientes regiones de AWS:

  • Los modelos Llama 3.2 1B y 3B están disponibles en las regiones Oeste de EE. UU. (Oregón) y Europa (Frankfurt), y están disponibles en las regiones Este de EE. UU. (Ohio, Norte de Virginia) y Europa (Irlanda, París) a través de inferencia entre regiones.
  • Los modelos Llama 3.2 11B Vision y 90B Vision están disponibles en la región Oeste de EE. UU. (Oregón) y en las regiones Este de EE. UU. (Ohio, Norte de Virginia) a través de inferencia entre regiones.

Consulte la lista completa de regiones de AWS para obtener actualizaciones futuras. Para calcular sus costos, visite la página de precios de Amazon Bedrock.

Para obtener más información sobre cómo puede utilizar los modelos Llama 3.2 11B y 90B para respaldar las tareas de visión, lea los casos de uso de visión con los modelos Llama 3.2 11B y 90B del blog Meta en el canal de blogs de AWS Machine Learning.

Para obtener más información sobre las características y capacidades de Llama 3.2, visite la sección de modelos de Llama de la documentación de Amazon Bedrock. Pruebe Llama 3.2 en la consola de Amazon Bedrock hoy mismo y envíe sus comentarios a AWS re:Post para Amazon Bedrock.

Puede encontrar contenido técnico detallado y descubrir cómo nuestras comunidades de Builder utilizan Amazon Bedrock en comunidad.aws¡Cuéntanos qué creaste con Llama 3.2 en Amazon Bedrock!

Danilo



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Carga de forma inalámbrica todos tus nuevos dispositivos Apple con un 25 % de descuento en este fantástico soporte 3 en 1

La caja del manga Zelda: Twilight Princess recibe un buen descuento de lanzamiento en Amazon

La caja del manga Zelda: Twilight Princess recibe un buen descuento de lanzamiento en Amazon