|
Hoy, estamos encantados de anunciar Amazon Nova, una nueva generación de modelos básicos (FM) de última generación que ofrecen inteligencia de vanguardia y un rendimiento de precios líder en la industria, disponible exclusivamente en Amazon Bedrock.
Puede utilizar Amazon Nova para reducir los costos y la latencia de casi cualquier tarea de IA generativa. Puede aprovechar Amazon Nova para analizar documentos y videos complejos, comprender gráficos y diagramas, generar contenido de video atractivo y crear agentes de IA sofisticados, a partir de una variedad de clases de inteligencia optimizadas para cargas de trabajo empresariales.
Ya sea que esté desarrollando aplicaciones de procesamiento de documentos que necesitan procesar imágenes y texto, creando contenido de marketing a escala o creando asistentes de inteligencia artificial que puedan comprender y actuar sobre información visual, Amazon Nova proporciona la inteligencia y la flexibilidad que necesita con dos categorías de modelos: comprensión y generación de contenidos creativos.
Los modelos de comprensión de Amazon Nova aceptan entradas de texto, imágenes o vídeo para generar resultados de texto. Los modelos de generación de contenido creativo de Amazon aceptan entradas de texto e imágenes para generar salidas de imágenes o videos.
Comprensión de modelos: texto e inteligencia visual
Los modelos de Amazon Nova incluyen tres modelos de comprensión (próximamente habrá un cuarto) diseñados para satisfacer diferentes necesidades:
Amazon Nova Micro – Un modelo de solo texto que ofrece las respuestas de latencia más baja de la familia de modelos Amazon Nova a un costo muy bajo. Con una longitud de contexto de 128 000 tokens y optimizado en cuanto a velocidad y costo, Amazon Nova Micro se destaca en tareas como resumen de texto, traducción, clasificación de contenido, chat interactivo y lluvia de ideas, y razonamiento y codificación matemáticos simples. Amazon Nova Micro también admite la personalización de datos propietarios mediante ajuste fino y destilación de modelos para aumentar la precisión.
Amazon Nova Lite – Un modelo multimodal de muy bajo costo que es increíblemente rápido para procesar entradas de imágenes, videos y texto para generar salidas de texto. Amazon Nova Lite puede manejar interacciones con clientes en tiempo real, análisis de documentos y tareas visuales de respuesta a preguntas con alta precisión. El modelo procesa entradas de hasta 300.000 tokens de longitud y puede analizar varias imágenes o hasta 30 minutos de vídeo en una sola solicitud. Amazon Nova Lite también admite ajuste fino multimodal y de texto y se puede optimizar para ofrecer la mejor calidad y costos para su caso de uso con técnicas como la destilación de modelos.
Amazon NovaPro – Un modelo multimodal de gran capacidad con la mejor combinación de precisión, velocidad y coste para una amplia gama de tareas. Amazon Nova Pro es capaz de procesar hasta 300.000 tokens de entrada y establece nuevos estándares en inteligencia multimodal y flujos de trabajo agentes que requieren llamadas a API y herramientas para completar flujos de trabajo complejos. Logra un rendimiento de última generación en puntos de referencia clave, incluida la respuesta visual a preguntas (TextoVQA) y comprensión del vídeo (VATEX). Amazon Nova Pro demuestra sólidas capacidades en el procesamiento de información tanto visual como textual y destaca en el análisis de documentos financieros. Con un contexto de entrada de 300.000 tokens, puede procesar bases de código con más de quince mil líneas de código. Amazon Nova Pro también sirve como modelo docente para destilar variantes personalizadas de Amazon Nova Micro y Lite.
Amazon Nova Premier – Nuestro modelo multimodal más capaz para tareas de razonamiento complejas y para utilizarlo como el mejor maestro para destilar modelos personalizados. Amazon Nova Premier todavía está en formación. Nuestro objetivo es la disponibilidad a principios de 2025.
Los modelos de comprensión de Amazon Nova destacan en recuperación de generación aumentada (RAG), llamadas de funciones y aplicaciones agentes. Esto se refleja en las puntuaciones del modelo Amazon Nova en el Punto de referencia RAG integral (CRAG) evaluación, Tabla de clasificación de llamadas a funciones de Berkeley (BFCL), VisualWebBenchy Mente2Web.
Lo que hace que Amazon Nova sea particularmente poderoso para las empresas son sus capacidades de personalización. Piense en ello como confeccionar un traje: comienza con una base de alta calidad y la ajusta para que se ajuste a sus necesidades exactas. Puede ajustar los modelos con texto, imágenes y videos para comprender la terminología de su industria, alinearse con la voz de su marca y optimizarlos para sus casos de uso específicos. Por ejemplo, una firma legal podría personalizar Amazon Nova para comprender mejor la terminología legal y las estructuras de los documentos.
Puede ver las puntuaciones de referencia más recientes para estos modelos en la página del producto Amazon Nova.
Generación de contenido creativo: dar vida a los conceptos
Los modelos de Amazon Nova también incluyen dos modelos de generación de contenido creativo:
Lienzo Nova Amazon – Un modelo de generación de imágenes de última generación que produce imágenes con calidad de estudio con control preciso sobre el estilo y el contenido, incluidas funciones de edición enriquecidas como pintura interior, pintura exterior y eliminación de fondo. Amazon Nova Canvas sobresale en evaluaciones humanas y puntos de referencia clave como Evaluación de fidelidad de texto a imagen con respuesta a preguntas (TIFA) y Recompensa de imagen.
Carrete Amazon Nova – Un modelo de generación de vídeo de última generación. Con Amazon Nova Reel, puede producir videos cortos a través de mensajes de texto e imágenes, controlar el estilo y el ritmo visual y generar contenido de video de calidad profesional para marketing, publicidad y entretenimiento. Amazon Nova Reel supera a los modelos existentes en evaluaciones humanas de calidad y consistencia de video.
Todos los modelos de Amazon Nova incluyen controles de seguridad integrados y los modelos de generación de contenido creativo incluyen capacidades de marcas de agua para promover el uso responsable de la IA.
Veamos cómo funcionan estos modelos en la práctica para algunos casos de uso.
Uso de Amazon Nova Pro para el análisis de documentos
Para demostrar las capacidades del análisis de documentos, descargué la guía para tomar decisiones sobre el servicio de IA generativa en formato PDF de la documentación de AWS.
Primero elijo Acceso al modelo en el panel de navegación de la consola de Amazon Bedrock y solicite acceso al nuevo Amazonia nueva modelos. Entonces elijo Chat/texto en el Patio de juegos sección del panel de navegación y seleccione la Amazon NovaPro modelo. En el chat subo la guía de decisión en PDF y pregunto:
Write a summary of this doc in 100 words. Then, build a decision tree.
El resultado sigue mis instrucciones y genera un árbol de decisiones estructurado que me permite vislumbrar el documento antes de leerlo.
Uso de Amazon Nova Pro para análisis de vídeo
Para demostrar el análisis de video, preparé un video uniendo dos clips cortos (más sobre esto en la siguiente sección):
Esta vez, utilizo AWS SDK para Python (Boto3) para invocar el modelo Amazon Nova Pro usando la API Amazon Bedrock Converse y analizar el video:
import boto3
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-pro-v1:0"
VIDEO_FILE = "the-sea.mp4"
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
with open(VIDEO_FILE, "rb") as f:
video = f.read()
user_message = "Describe this video."
messages = [ { "role": "user", "content": [
{"video": {"format": "mp4", "source": {"bytes": video}}},
{"text": user_message}
] } ]
response = bedrock_runtime.converse(
modelId=MODEL_ID,
messages=messages,
inferenceConfig={"temperature": 0.0}
)
response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)
Amazon Nova Pro puede analizar vídeos que se cargan con la API (como en el código anterior) o que se almacenan en un depósito de Amazon Simple Storage Service (Amazon S3).
En el guión, pido describir el video. Ejecuto el script desde la línea de comando. Aquí está el resultado:
The video begins with a view of a rocky shore on the ocean, and then transitions to a close-up of a large seashell resting on a sandy beach.
Puedo utilizar un mensaje más detallado para extraer información específica del vídeo, como objetos o texto. Tenga en cuenta que Amazon Nova actualmente no procesa el audio de un vídeo.
Usando Amazon Nova para la creación de videos
Ahora, creemos un video usando Amazon Nova Reel, comenzando con un mensaje de solo texto y luego proporcionando una imagen de referencia.
Dado que generar un vídeo lleva unos minutos, la API de Amazon Bedrock introdujo tres nuevas operaciones:
IniciarAsyncInvoke – Para iniciar una invocación asincrónica
ObtenerAsyncInvocar – Para obtener el estado actual de una invocación asincrónica específica
ListaAsyncInvocaciones – Para enumerar el estado de todas las invocaciones asincrónicas con filtros opcionales como estado o fecha
Amazon Nova Reel admite acciones de control de la cámara, como hacer zoom o mover la cámara. Este script de Python crea un vídeo a partir de este mensaje de texto:
Closeup of a large seashell in the sand. Gentle waves flow all around the shell. Sunset light. Camera zoom in very close.
Después de la primera invocación, el script comprueba periódicamente el estado hasta que se completa la creación del vídeo. Paso una semilla aleatoria para obtener un resultado diferente cada vez que se ejecuta el código.
import random
import time
import boto3
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
S3_DESTINATION_BUCKET = ""
video_prompt = "Closeup of a large seashell in the sand. Gentle waves flow all around the shell. Sunset light. Camera zoom in very close."
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
model_input = {
"taskType": "TEXT_VIDEO",
"textToVideoParams": {"text": video_prompt},
"videoGenerationConfig": {
"durationSeconds": 6,
"fps": 24,
"dimension": "1280x720",
"seed": random.randint(0, 2147483648)
}
}
invocation = bedrock_runtime.start_async_invoke(
modelId=MODEL_ID,
modelInput=model_input,
outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}}
)
invocation_arn = invocation["invocationArn"]
s3_prefix = invocation_arn.split('/')[-1]
s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"
print(f"\nS3 URI: {s3_location}")
while True:
response = bedrock_runtime.get_async_invoke(
invocationArn=invocation_arn
)
status = response["status"]
print(f"Status: {status}")
if status != "InProgress":
break
time.sleep(SLEEP_TIME)
if status == "Completed":
print(f"\nVideo is ready at {s3_location}/output.mp4")
else:
print(f"\nVideo generation status: {status}")
Ejecuto el script:
Status: InProgress
. . .
Status: Completed
Video is ready at s3://BUCKET/PREFIX/output.mp4
Después de unos minutos, el script se completa e imprime la ubicación de salida de Amazon Simple Storage Service (Amazon S3). Descargo el vídeo de salida utilizando la interfaz de línea de comandos de AWS (AWS CLI):
Este es el vídeo resultante. Según lo solicitado, la cámara hace zoom sobre el sujeto.
Usando Amazon Nova Reel con una imagen de referencia
Para tener un mejor control sobre la creación del video, puedo proporcionar a Amazon Nova Reel una imagen de referencia como la siguiente:
Este script utiliza la imagen de referencia y un mensaje de texto con una acción de cámara (drone view flying over a coastal landscape
) para crear un vídeo:
import base64
import random
import time
import boto3
S3_DESTINATION_BUCKET = ""
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
input_image_path = "seascape.png"
video_prompt = "drone view flying over a coastal landscape"
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
# Load the input image as a Base64 string.
with open(input_image_path, "rb") as f:
input_image_bytes = f.read()
input_image_base64 = base64.b64encode(input_image_bytes).decode("utf-8")
model_input = {
"taskType": "TEXT_VIDEO",
"textToVideoParams": {
"text": video_prompt,
"images": [{ "format": "png", "source": { "bytes": input_image_base64 } }]
},
"videoGenerationConfig": {
"durationSeconds": 6,
"fps": 24,
"dimension": "1280x720",
"seed": random.randint(0, 2147483648)
}
}
invocation = bedrock_runtime.start_async_invoke(
modelId=MODEL_ID,
modelInput=model_input,
outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}}
)
invocation_arn = invocation["invocationArn"]
s3_prefix = invocation_arn.split('/')[-1]
s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"
print(f"\nS3 URI: {s3_location}")
while True:
response = bedrock_runtime.get_async_invoke(
invocationArn=invocation_arn
)
status = response["status"]
print(f"Status: {status}")
if status != "InProgress":
break
time.sleep(SLEEP_TIME)
if status == "Completed":
print(f"\nVideo is ready at {s3_location}/output.mp4")
else:
print(f"\nVideo generation status: {status}")
Nuevamente, descargo el resultado usando la CLI de AWS:
Este es el vídeo resultante. La cámara parte de la imagen de referencia y avanza.
Construyendo IA de manera responsable
Los modelos de Amazon Nova se crean centrándose en la seguridad y la confianza del cliente durante todas las etapas de desarrollo del modelo, lo que le ofrece tranquilidad y un nivel adecuado de control para permitir sus casos de uso únicos.
Hemos incorporado funciones de seguridad integrales y capacidades de moderación de contenido, brindándole los controles que necesita para usar la IA de manera responsable. Cada imagen y video generado incluye marcas de agua digitales.
Los modelos básicos de Amazon Nova están diseñados con protecciones que coinciden con sus mayores capacidades. Amazon Nova amplía nuestras medidas de seguridad para combatir la difusión de información errónea, material de abuso sexual infantil (CSAM) y riesgos químicos, biológicos, radiológicos o nucleares (CBRN).
Cosas que debes saber
Los modelos de Amazon Nova están disponibles en Amazon Bedrock en la región de AWS del este de EE. UU. (Norte de Virginia). Amazon Nova Micro, Lite y Pro también están disponibles en las regiones Oeste de EE. UU. (Oregón) y Este de EE. UU. (Ohio) mediante inferencia entre regiones. Como es habitual en Amazon Bedrock, el precio sigue un modelo de pago por uso. Para obtener más información, consulte Precios de Amazon Bedrock.
La nueva generación de modelos de comprensión de Amazon Nova habla su idioma. Estos modelos comprenden y generan contenido en más de 200 idiomas, con capacidades particularmente sólidas en inglés, alemán, español, francés, italiano, japonés, coreano, árabe, chino simplificado, ruso, hindi, portugués, holandés, turco y hebreo. Esto significa que puede crear aplicaciones verdaderamente globales sin preocuparse por las barreras del idioma o mantener modelos separados para diferentes regiones. Los modelos de Amazon Nova para la generación de contenido creativo admiten indicaciones en inglés.
A medida que explora Amazon Nova, descubrirá su capacidad para manejar tareas cada vez más complejas. Puede utilizar estos modelos para procesar documentos extensos de hasta 300 000 tokens, analizar varias imágenes en una sola solicitud, comprender hasta 30 minutos de contenido de video y generar imágenes y videos a escala a partir de lenguaje natural. Esto hace que estos modelos sean adecuados para una variedad de casos de uso empresarial, desde interacciones rápidas de servicio al cliente hasta análisis profundos de documentación corporativa y creación de activos para aplicaciones de publicidad, comercio electrónico y redes sociales.
La integración con Amazon Bedrock simplifica la implementación y el escalado. Puede aprovechar funciones como Amazon Bedrock Knowledge Bases para mejorar su modelo con información patentada, utilizar Amazon Bedrock Agents para automatizar flujos de trabajo complejos e implementar Amazon Bedrock Guardrails para promover el uso responsable de la IA. La plataforma admite transmisión en tiempo real para aplicaciones interactivas, procesamiento por lotes para cargas de trabajo de gran volumen y monitoreo detallado para ayudarlo a optimizar el rendimiento.
¿Listo para empezar a construir con Amazon Nova? Pruebe los nuevos modelos en la consola de Amazon Bedrock hoy, visite la sección de modelos de Amazon Nova de la documentación de Amazon Bedrock y envíe sus comentarios a AWS re: Publicación para Amazon Bedrock. Puede encontrar contenido técnico detallado y descubrir cómo nuestras comunidades de constructores utilizan Amazon Bedrock en comunidad.aws. ¡Cuéntanos qué construyes con estos nuevos modelos!
— Danilo
GIPHY App Key not set. Please check settings