in

Claude 3.5 Sonnet actualizado de Anthropic (disponible ahora), uso de computadora (beta pública) y Claude 3.5 Haiku (próximamente) en Amazon Bedrock | Servicios web de Amazon

Hace cuatro meses, presentamos Claude 3.5 de Anthropic en Amazon Bedrock, elevando el listón de la industria para la inteligencia de modelos de IA y al mismo tiempo manteniendo la velocidad y el costo de Claude 3 Sonnet.

Hoy, me complace anunciar tres nuevas capacidades para la familia de modelos Claude 3.5 en Amazon Bedrock:

Soneto Claude 3.5 actualizado – Ahora tiene acceso a un modelo Claude 3.5 Sonnet actualizado que se basa en las fortalezas de su predecesor y ofrece aún más inteligencia al mismo costo. Claude 3.5 Sonnet continúa mejorando su capacidad para resolver tareas de ingeniería de software del mundo real y seguir flujos de trabajo complejos y agentes. El Claude 3.5 Sonnet actualizado ayuda durante todo el ciclo de vida del desarrollo de software, desde el diseño inicial hasta la corrección de errores, el mantenimiento y las optimizaciones. Con estas capacidades, el modelo Claude 3.5 Sonnet actualizado puede ayudar a crear chatbots más avanzados con un tono cálido y humano. Otros casos de uso en los que sobresale el modelo actualizado incluyen plataformas de preguntas y respuestas sobre conocimientos, extracción de datos a partir de elementos visuales como cuadros y diagramas, y automatización de tareas y operaciones repetitivas.

Uso de la computadora – Claude 3.5 Sonnet ahora ofrece capacidades de uso de computadoras en Amazon Bedrock en versión beta pública, lo que permite a Claude percibir e interactuar con las interfaces de las computadoras. Los desarrolladores pueden indicarle a Claude que use las computadoras como lo hacen las personas: mirando una pantalla, moviendo un cursor, haciendo clic en botones y escribiendo texto. Esto funciona dándole al modelo acceso a herramientas integradas que pueden devolver acciones de la computadora, como pulsaciones de teclas y clics del mouse, edición de archivos de texto y ejecución de comandos de shell. Los desarrolladores de software pueden integrar el uso de computadoras en sus soluciones creando una capa de ejecución de acciones y otorgando acceso a la pantalla a Claude 3.5 Sonnet. De esta manera, los desarrolladores de software pueden crear aplicaciones con la capacidad de realizar acciones informáticas, seguir múltiples pasos y comprobar sus resultados. El uso de computadoras abre nuevas posibilidades para aplicaciones impulsadas por IA. Por ejemplo, puede ayudar a automatizar las pruebas de software y las tareas administrativas e implementar asistentes de software más avanzados que puedan interactuar con las aplicaciones. Dado que esta tecnología es temprana, se anima a los desarrolladores a explorar tareas de menor riesgo y utilizarla en un entorno sandbox.

Claude 3.5 Haiku – El nuevo Claude 3.5 Haiku llegará pronto y combina tiempos de respuesta rápidos con capacidades de razonamiento mejoradas, lo que lo hace ideal para tareas que requieren velocidad e inteligencia. Claude 3.5 Haiku mejora a su predecesor e iguala el rendimiento de Claude 3 Opus (anteriormente el modelo más grande de Claude) a la velocidad y el costo de Claude 3 Haiku. Claude 3.5 Haiku puede ayudar con casos de uso como sugerencias de código rápidas y precisas, chatbots altamente interactivos que necesitan tiempos de respuesta rápidos para el servicio al cliente, soluciones de comercio electrónico y plataformas educativas. Para los clientes que manejan grandes volúmenes de datos no estructurados en finanzas, atención médica, investigación y más, Claude 3.5 Haiku puede ayudar a procesar y categorizar información de manera eficiente.

Según Anthropic, el Claude 3.5 Sonnet actualizado ofrece mejoras generales con respecto a su predecesor, con mejoras significativas en codificación, un área en la que ya sobresalía. El Claude 3.5 Sonnet actualizado muestra amplias mejoras con respecto a los puntos de referencia de la industria. En codificación, mejora el rendimiento en SWE-bench Verified del 33% al 49%, con una puntuación más alta que todos los modelos disponibles públicamente. También mejora el rendimiento en TAU-bench, una tarea de uso de herramientas agentes, del 62,6 % al 69,2 % en el ámbito minorista y del 36,0 % al 46,0 % en el ámbito de las aerolíneas. La siguiente tabla incluye las evaluaciones de modelos proporcionadas por Anthropic.

Evaluaciones actualizadas de Claude 3.5 Sonnet

Uso de la computadora, una nueva frontera en la interacción con la IA
En lugar de restringir el modelo al uso de API, Claude ha recibido capacitación en habilidades informáticas generales, lo que le permite utilizar una amplia gama de herramientas y programas de software estándar. De esta manera, las aplicaciones pueden utilizar Claude para percibir e interactuar con las interfaces de la computadora. Los desarrolladores de software pueden integrar esta API para permitir que Claude traduzca mensajes (por ejemplo, «búsqueme un hotel en Roma») en comandos informáticos específicos (abra un navegador, navegue por este sitio web, etc.).

Más específicamente, al invocar el modelo, los desarrolladores de software ahora tienen acceso a tres nuevas herramientas integradas que proporcionan un par de manos virtuales para operar una computadora:

  • herramienta informática – Esta herramienta puede recibir como entrada una captura de pantalla y un objetivo y devuelve una descripción de las acciones del mouse y del teclado que se deben realizar para lograr ese objetivo. Por ejemplo, esta herramienta puede solicitar mover el cursor a una posición específica, hacer clic, escribir y tomar capturas de pantalla.
  • herramienta de edición de texto – Con esta herramienta, el modelo puede solicitar realizar operaciones como ver el contenido del archivo, crear archivos nuevos, reemplazar texto y deshacer ediciones.
  • herramienta de golpe – Esta herramienta devuelve comandos que se pueden ejecutar en un sistema informático para interactuar en un nivel inferior como un usuario que escribe en una terminal.

Estas herramientas abren un mundo de posibilidades para automatizar tareas complejas, desde análisis de datos y pruebas de software hasta creación de contenido y administración de sistemas. Imagine una aplicación impulsada por Claude 3.5 Sonnet interactuando con la computadora tal como lo haría un humano, navegando a través de múltiples herramientas de escritorio, incluidos terminales, editores de texto, navegadores de Internet y también capaz de completar formularios e incluso depurar código.

Nos entusiasma ayudar a los desarrolladores de software a explorar estas nuevas capacidades con Amazon Bedrock. Esperamos que esta capacidad mejore rápidamente en los próximos meses, y la capacidad actual de Claude para usar computadoras tiene límites. Algunas acciones como desplazarse, arrastrar o hacer zoom pueden presentar desafíos para Claude, y lo alentamos a comenzar a explorar tareas de bajo riesgo.

al mirar OSWorldpunto de referencia para agentes multimodales en entornos informáticos reales, el Claude 3.5 Sonnet actualizado obtiene actualmente un 14,9%. Si bien la habilidad a nivel humano está muy por delante con alrededor del 70-75%, este resultado es mucho mejor que el 7,7% obtenido por el siguiente mejor modelo en la misma categoría.

Uso del Claude 3.5 Sonnet actualizado en la consola de Amazon Bedrock
Para comenzar con el Claude 3.5 Sonnet actualizado, navego hasta la consola de Amazon Bedrock y selecciono Acceso al modelo en el panel de navegación. Allí solicito acceso para el nuevo Claude 3.5 Soneto V2 modelo.

Para probar la nueva capacidad de visión, abro otra pestaña del navegador y la descargo desde Sitio web de Nuestro mundo en datos el Generación de energía eólica gráfico en formato PNG.

Nuestra palabra en datos: gráfico de generación de energía eólica

De vuelta en la consola de Amazon Bedrock, elijo Chat/texto bajo Parques infantiles en el panel de navegación. Para el modelo, selecciono antrópico como proveedor del modelo y luego Claude 3.5 Soneto V2.

Utilizo los tres puntos verticales en la sección de entrada del chat para cargar el archivo de imagen desde mi computadora. Luego entro en este mensaje:

Which are the top countries for wind power generation? Answer only in JSON.

El resultado sigue mis instrucciones y devuelve la lista extrayendo la información de la imagen.

Captura de pantalla de la consola.

Uso del Claude 3.5 Sonnet actualizado con AWS CLI y SDK
A continuación se muestra un comando de muestra de la interfaz de línea de comandos de AWS (AWS CLI) que utiliza la API Converse de Amazon Bedrock. yo uso el --query parámetro de la CLI para filtrar el resultado y mostrar solo el contenido de texto del mensaje de salida:

aws bedrock-runtime converse \
    --model-id anthropic.claude-3-5-sonnet-20241022-v2:0 \
    --messages '[{ "role": "user", "content": [ { "text": "What do you throw out when you want to use it, but take in when you do not want to use it?" } ] }]' \
    --query 'output.message.content[*].text' \
    --output text

En el resultado, recibo este texto en la respuesta.

An anchor! You throw an anchor out when you want to use it to stop a boat, but you take it in (pull it up) when you don't want to use it and want to move the boat.

Los SDK de AWS implementan una interfaz similar. Por ejemplo, puede utilizar AWS SDK para Python (Boto3) para analizar la misma imagen que en el ejemplo de la consola:

import boto3

MODEL_ID = "anthropic.claude-3-5-sonnet-20241022-v2:0"
IMAGE_NAME = "wind-generation.png"

bedrock_runtime = boto3.client("bedrock-runtime")

with open(IMAGE_NAME, "rb") as f:
    image = f.read()

user_message = "Which are the top countries for wind power generation? Answer only in JSON."

messages = [
    {
        "role": "user",
        "content": [
            {"image": {"format": "png", "source": {"bytes": image}}},
            {"text": user_message},
        ],
    }
]

response = bedrock_runtime.converse(
    modelId=MODEL_ID,
    messages=messages,
)
response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)

Integrar el uso de la computadora con su aplicación
Veamos cómo funciona el uso de la computadora en la práctica. Primero, tomo una instantánea del escritorio de un sistema Ubuntu:

Captura de pantalla del escritorio de Ubuntu

Esta captura de pantalla es el punto de partida de los pasos que se implementarán mediante el uso de la computadora. Para ver cómo funciona, ejecuto un script de Python y le paso al modelo la imagen de captura de pantalla y este mensaje:

Find me a hotel in Rome.

Este script invoca el Claude 3.5 Sonnet actualizado en Amazon Bedrock utilizando la nueva sintaxis requerida para el uso de la computadora:

import base64
import json
import boto3

MODEL_ID = "anthropic.claude-3-5-sonnet-20241022-v2:0"

IMAGE_NAME = "ubuntu-screenshot.png"

bedrock_runtime = boto3.client(
    "bedrock-runtime",
    region_name="us-east-1",
)

with open(IMAGE_NAME, "rb") as f:
    image = f.read()

image_base64 = base64.b64encode(image).decode("utf-8")

prompt = "Find me a hotel in Rome."

body = {
    "anthropic_version": "bedrock-2023-05-31",
    "max_tokens": 512,
    "temperature": 0.5,
    "messages": [
        {
            "role": "user",
            "content": [
                {"type": "text", "text": prompt},
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/jpeg",
                        "data": image_base64,
                    },
                },
            ],
        }
    ],
    "tools": [
        { # new
            "type": "computer_20241022", # literal / constant
            "name": "computer", # literal / constant
            "display_height_px": 1280, # min=1, no max
            "display_width_px": 800, # min=1, no max
            "display_number": 0 # min=0, max=N, default=None
        },
        { # new
            "type": "bash_20241022", # literal / constant
            "name": "bash", # literal / constant
        },
        { # new
            "type": "text_editor_20241022", # literal / constant
            "name": "str_replace_editor", # literal / constant
        }
    ],
    "anthropic_beta": ["computer-use-2024-10-22"],
}

# Convert the native request to JSON.
request = json.dumps(body)

try:
    # Invoke the model with the request.
    response = bedrock_runtime.invoke_model(modelId=MODEL_ID, body=request)

except Exception as e:
    print(f"ERROR: {e}")
    exit(1)

# Decode the response body.
model_response = json.loads(response["body"].read())
print(model_response)

El cuerpo de la solicitud incluye nuevas opciones:

  • anthropic_beta con valor ["computer-use-2024-10-22"] para permitir el uso de la computadora.
  • El tools La sección admite una nueva type opción (establecida en custom para las herramientas que configure).
  • Tenga en cuenta que la herramienta informática necesita conocer la resolución de la pantalla (display_height_px y display_width_px).

Para seguir mis instrucciones con el uso de la computadora, el modelo proporciona acciones que operan en el escritorio descrito en la captura de pantalla de entrada.

La respuesta del modelo incluye una tool_use sección de la computer herramienta que proporciona el primer paso. La modelo ha encontrado en la captura de pantalla el icono del navegador Firefox y la posición de la flecha del ratón. Por eso, ahora solicita mover el mouse a coordenadas específicas para iniciar el navegador.

{
    "id": "msg_bdrk_01WjPCKnd2LCvVeiV6wJ4mm3",
    "type": "message",
    "role": "assistant",
    "model": "claude-3-5-sonnet-20241022",
    "content": [
        {
            "type": "text",
            "text": "I'll help you search for a hotel in Rome. I see Firefox browser on the desktop, so I'll use that to access a travel website.",
        },
        {
            "type": "tool_use",
            "id": "toolu_bdrk_01CgfQ2bmQsPFMaqxXtYuyiJ",
            "name": "computer",
            "input": {"action": "mouse_move", "coordinate": [35, 65]},
        },
    ],
    "stop_reason": "tool_use",
    "stop_sequence": None,
    "usage": {"input_tokens": 3443, "output_tokens": 106},
}

Este es sólo el primer paso. Al igual que con las solicitudes habituales de uso de herramientas, el script debe responder con el resultado del uso de la herramienta (moviendo el mouse en este caso). Según la solicitud inicial para reservar un hotel, habrá un bucle de interacciones de uso de herramientas que le pedirán hacer clic en el icono, escribir una URL en el navegador, y así sucesivamente hasta que se haya reservado el hotel.

Un ejemplo más completo está disponible en este repositorio compartido por Anthropic.

Cosas que debes saber
El Claude 3.5 Sonnet actualizado está disponible hoy en Amazon Bedrock en la región de AWS Oeste de EE. UU. (Oregón) y se ofrece al mismo costo que el Claude 3.5 Sonnet original. Para obtener información actualizada sobre la disponibilidad regional, consulte la documentación de Amazon Bedrock. Para obtener información detallada sobre los costos de cada modelo de Claude, visite la página de precios de Amazon Bedrock.

Además de la mayor inteligencia del modelo actualizado, los desarrolladores de software ahora pueden integrar el uso de computadoras (disponibles en versión beta pública) en sus aplicaciones para automatizar flujos de trabajo de escritorio complejos, mejorar los procesos de prueba de software y crear aplicaciones más sofisticadas impulsadas por IA.

Claude 3.5 Haiku se lanzará en las próximas semanas, inicialmente como un modelo de solo texto y luego con entrada de imágenes.

Puedes ver cómo el uso de la computadora puede ayudar con la codificación en este video con Alex AlbertoJefe de Relaciones con Desarrolladores de Anthropic.

Este otro video describe el uso de la computadora para automatizar operaciones.

Para obtener más información sobre estas nuevas características, visite la sección de modelos Claude de la documentación de Amazon Bedrock. Pruebe hoy el Claude 3.5 Sonnet actualizado en la consola de Amazon Bedrock y envíe sus comentarios a AWS re: Publicación para Amazon Bedrock. Puede encontrar contenido técnico detallado y descubrir cómo nuestras comunidades de constructores utilizan Amazon Bedrock en comunidad.aws. ¡Háganos saber qué construye con estas nuevas capacidades!

Danilo



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Este cargador Anker plegable parece un OVNI y mantiene todo funcionando

la seguridad cibernética

Un nuevo grupo de delincuentes digitales está explotando los sistemas financieros de Estados Unidos