in

Presentación de Amazon Nova Sonic: conversaciones de voz similares a los humanos para aplicaciones generativas de IA | Servicios web de Amazon

Las interfaces de voz son esenciales para mejorar la experiencia del cliente en diferentes áreas, como la automatización de llamadas al cliente, los juegos, la educación interactiva y el aprendizaje de idiomas. Sin embargo, hay desafíos al construir aplicaciones habilitadas para voz.

Los enfoques tradicionales en la construcción de aplicaciones habilitadas para voz requieren una orquestación compleja de múltiples modelos, como el reconocimiento de voz para convertir el habla en texto, modelos de idiomas para comprender y generar respuestas, y texto a voz para convertir el texto de nuevo en audio.

Este enfoque fragmentado no solo aumenta la complejidad del desarrollo, sino que tampoco puede preservar el contexto lingüístico crucial como el tono, la prosodia y el estilo de habla que son esenciales para las conversaciones naturales. Esto puede afectar las aplicaciones de IA conversacionales que necesitan baja latencia y una comprensión matizada de las señales verbales y no verbales para el manejo del diálogo de fluidos y la toma de turnos naturales.

Para optimizar la implementación de aplicaciones habilitadas para hablar, hoy estamos presentando a Amazon Nova Sonic, la nueva incorporación a la Familia de Fundación Amazon Nova (FMS) disponible en Amazon Bedrock.

Amazon Nova Sonic unifica la comprensión del habla y la generación en un solo modelo que los desarrolladores pueden usar para crear experiencias de IA conversacionales naturales, similares a humanos, con baja latencia y rendimiento de precios líderes en la industria. Este enfoque integrado optimiza el desarrollo y reduce la complejidad al construir aplicaciones conversacionales.

Su arquitectura de modelo unificado ofrece una generación expresiva de habla y transcripción de texto en tiempo real sin requerir un modelo separado. El resultado es una respuesta de habla adaptativa que ajusta dinámicamente su entrega en función de la prosodia, como el ritmo y el timbre, del discurso de entrada.

Cuando se utilizan Amazon Nova Sonic, los desarrolladores tienen acceso a llamadas de funciones (también conocidas como uso de herramientas) y flujos de trabajo de agente para interactuar con servicios y API externos y realizar tareas en el entorno del cliente, incluido el conocimiento con los datos empresariales utilizando la generación de recuperación auficiencia de recuperación.

En el lanzamiento, Amazon Nova Sonic ofrece una robusta comprensión del habla para el inglés estadounidense y británico en varios estilos de habla y condiciones acústicas, con idiomas adicionales próximamente.

Amazon Nova Sonic se desarrolla con IA responsable a la vanguardia de la innovación, con protecciones incorporadas para moderación de contenido y marca de agua.

Amazon Nova Sonic en acción
El escenario para esta demostración es un centro de contacto en la industria de las telecomunicaciones. Un cliente se comunica para mejorar su plan de suscripción, y Amazon Nova Sonic maneja la conversación.

Con el uso de la herramienta, el modelo puede interactuar con otros sistemas y usar el trapo de agente con las bases de conocimiento de Amazon Bedrock para recopilar información actualizada y específica del cliente, como detalles de la cuenta, planes de suscripción e información de precios.

La demostración muestra la transcripción de transcripción de la entrada del habla y muestra la transmisión de respuestas del habla como texto. El sentimiento de la conversación se muestra de dos maneras: un gráfico de tiempo que ilustra cómo evoluciona y un gráfico circular que representa la distribución general. También hay una sección de Insights AI que proporciona consejos contextuales para un agente de Call Center. Otras métricas interesantes que se muestran en la interfaz web son la distribución general del tiempo de conversación entre el cliente y el agente, y el tiempo de respuesta promedio.

Durante la conversación con el agente de soporte, puede observar a través de las métricas y escuchar en las voces cómo mejora el sentimiento del cliente.

El video incluye un ejemplo de cómo Amazon Nova Sonic maneja las interrupciones sin problemas, deteniéndose para escuchar y luego continuar la conversación de manera natural.

Ahora, exploremos cómo puede integrar las capacidades de voz en sus aplicaciones.

Usando Amazon Nova Sonic
Para comenzar con Amazon Nova Sonic, primero debe alternar el acceso al modelo en la consola de rock de Amazon, de manera similar a cómo habilitaría otros FM. Navegar al Acceso modelo Sección del panel de navegación, encontrar Amazon Nova Sonic bajo el Amazonas modelos y habilitarlo para su cuenta.

Amazon Bedrock proporciona una nueva API de transmisión bidireccional (InvokeModelWithBidirectionalStream) para ayudarlo a implementar experiencias de conversación en tiempo real y de baja latencia sobre el Http/2 protocolo. Con esta API, puede transmitir la entrada de audio al modelo y recibir salida de audio en tiempo real, para que la conversación fluya naturalmente.

Puede usar Amazon Nova Sonic con la nueva API con esta ID de modelo: amazon.nova-sonic-v1:0

Después de la inicialización de la sesión, donde puede configurar los parámetros de inferencia, el modelo funciona a través de una arquitectura basada en eventos en las secuencias de entrada y salida.

Hay tres tipos de eventos clave en la secuencia de entrada:

Aviso del sistema – Para establecer la solicitud general del sistema para la conversación

Transmisión de entrada de audio -para procesar la entrada de audio continuo en tiempo real

Manejo de resultados de la herramienta – Para enviar el resultado de las llamadas de uso de la herramienta al modelo (después de que se solicite el uso de la herramienta en los eventos de salida)

Del mismo modo, hay tres grupos de eventos en las transmisiones de salida:

Transmisión de reconocimiento de voz automático (ASR) -Se genera la transcripción del habla a texto, que contiene el resultado del reconocimiento de voz en tiempo real.

Manejo de uso de herramientas – Si hay eventos de uso de una herramienta, deben manejarse utilizando la información proporcionada aquí, y los resultados enviados como eventos de entrada.

Transmisión de salida de audio -Para reproducir audio de salida en tiempo real, se necesita un búfer, porque el modelo Amazon Nova Sonic genera audio más rápido que la reproducción en tiempo real.

Puede encontrar ejemplos de uso de Amazon Nova Sonic en el Amazon Nova Model Repositorio de libros de cocina.

Ingeniería rápida para el habla
Al crear indicaciones para Amazon Nova Sonic, sus indicaciones deben optimizar el contenido para la comprensión auditiva en lugar de la lectura visual, centrándose en el flujo de conversación y la claridad cuando se escucha en lugar de ver.

Al definir los roles para su asistente, concéntrese en atributos conversacionales (como los atributos cálidos, paciente, concisos) en lugar de los atributos orientados al texto (detallado, integral, sistemático). Un buen mensaje del sistema de referencia podría ser:

You are a friend. The user and you will engage in a spoken dialog exchanging the transcripts of a natural real-time conversation. Keep your responses short, generally two or three sentences for chatty scenarios.

En términos más generales, al crear indicaciones para los modelos de habla, evite solicitar el formato visual (como puntos de bala, tablas o bloques de código), modificaciones características de voz (acento, edad o canto) o efectos de sonido.

Cosas que saber
Amazon Nova Sonic está disponible hoy en la región de AWS de los Estados Unidos (N. Virginia). Visite el precio de Amazon Bedrock para ver los modelos de precios.

Amazon Nova Sonic puede entender el discurso en diferentes estilos de habla y genera un discurso en voces expresivas, incluidas las voces de su sonido masculino y de sonido femenino, en diferentes acentos ingleses, incluidos los estadounidenses y británicos. El soporte para idiomas adicionales llegará pronto.

Amazon Nova Sonic maneja las interrupciones del usuario con gracia sin dejar caer el contexto de conversación y es robusto al ruido de fondo. El modelo admite una ventana de contexto de 32k tokens para audio con una ventana rodante para manejar conversaciones más largas y tiene un límite de sesión predeterminado de 8 minutos.

Los siguientes AWS SDK admiten la nueva API de transmisión bidireccional:

Los desarrolladores de Python pueden usar esto Nuevo SDK experimental Eso facilita el uso de las capacidades de transmisión bidireccionales de Amazon Nova Sonic. Estamos trabajando para agregar apoyo a los otros SDK de AWS.

Me gustaría agradecer Reilly Manton y Chad Hendrenque estableció la demostración con el centro de contacto en la industria de las telecomunicaciones, y Anuj jauhariquien me ayudó a comprender el rico panorama en el que se están desplegando modelos de voz a voz.

Para obtener más información, estos artículos que entran en los detalles de cómo usar la nueva API de transmisión bidireccional con demostraciones convincentes:

Ya sea que esté creando soluciones de servicio al cliente, aplicaciones de aprendizaje de idiomas u otras experiencias de conversación, Amazon Nova Sonic proporciona la base para las interacciones de voz naturales y atractivas. Para comenzar, visite la consola de rock de Amazon hoy. Para obtener más información, visite la sección Amazon Nova de la Guía del usuario.

Danilo


¿Cómo está el blog de noticias? Tomar esto Encuesta de 1 minuto!

(Este encuesta está alojado por una empresa externa. AWS maneja su información como se describe en el Aviso de privacidad de AWS. AWS será propietario de los datos recopilados a través de esta encuesta y no compartirá la información recopilada con los encuestados).

Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

65525

Habitaciones en la parte superior: cómo este equipo ganador de ADA construyó un título que desafía la descripción – Discover – Desarrollador de Apple

Agilizar el tráfico en la nube con un caché GigAflow

GigaFlow Cache optimiza el tráfico en la nube, con una tasa de aciertos 51% más alta y un 90% de fallas más bajas para las inteligentes Smartnics programables