|
Hoy anunciamos la disponibilidad general del motor generativo de Amazon Polly con tres voces: Ruth y Matthew en inglés americano y Amy en inglés británico. El nuevo motor generativo fue entrenado con datos propietarios y disponibles públicamente y una variedad de voces, idiomas y estilos. Funciona con la mayor precisión para representar prosodia, pausas, ortografía, propiedades dialectales, pronunciación de palabras extranjeras y más según el contexto.
Amazon Polly es un servicio de aprendizaje automático (ML) que convierte texto en voz realista, denominada tecnología de texto a voz (TTS). Ahora, Amazon Polly incluye voces humanas de alta calidad y con sonido natural en docenas de idiomas, para que pueda seleccionar la voz ideal y distribuir sus aplicaciones habilitadas para voz en muchos lugares o países.
Con Amazon Polly, puede seleccionar varias opciones de voz, incluidas voces neuronales, de formato largo y generativas, que ofrecen mejoras innovadoras en la calidad del habla y producen voces humanas, altamente expresivas y emocionalmente adaptadas. Puede almacenar la salida de voz en formatos estándar como MP3 u OGG, ajustar la velocidad, el tono o el volumen de la voz con etiquetas de lenguaje de marcado de síntesis de voz (SSML) y ofrecer rápidamente voces realistas y experiencias de usuario conversacionales con tiempos de respuesta consistentemente rápidos.
¿Cuál es el nuevo motor generativo?
Amazon Polly ahora admite cuatro motores de voz: voces estándar, neuronal, de formato largo y generativa.
Las voces TTS estándar, introducidas en 2016, utilizan síntesis concatenativa tradicional. Este método une los fonemas del habla grabada, produciendo un habla sintetizada con un sonido muy natural. Sin embargo, las inevitables variaciones en el habla y las técnicas utilizadas para segmentar las formas de onda limitan la calidad del habla.
Las voces neuronales TTS (NTTS), introducidas en 2019, utilizan una red neuronal de secuencia a secuencia que convierte una secuencia de fonemas en espectrogramas y un codificador de voz neuronal que convierte los espectrogramas en una señal de audio continua. El NTTS produce voces humanas de mayor calidad que sus voces estándar.
Las voces de formato largo, introducidas en 2023, se desarrollan con tecnología TTS de aprendizaje profundo de vanguardia y están diseñadas para cautivar la atención de los oyentes sobre contenidos más extensos, como artículos de noticias, materiales de capacitación o videos de marketing.
En febrero de 2024, los científicos de Amazon introdujeron un nuevo modelo de investigación TTS llamado Gran TTS adaptable y transmitible con habilidades emergentes (BASE). Con esta tecnología, el motor generativo de Amazon Polly es capaz de crear voces generadas sintéticamente con apariencia humana. Puede utilizar estas voces como un asistente de cliente experto, un formador virtual o un comercializador experimentado.
Aquí están las nuevas voces generativas:
Nombre | Lugar | Género | Idioma | Mensaje de muestra | Voces NTTS |
Voces generativas |
Piedad | es_US | Femenino | Inglés (Estados Unidos) | Selma was lying on the ground halfway down the steps. 'Selma! Selma!' we shouted in panic. |
||
Mateo | es_US | Masculino | Inglés (Estados Unidos) | The guards were standing outside with some of our neighbours, listening to a transistor radio. 'Any good news?' I asked. 'No, we're listening to the names of people who were killed yesterday,' Bruno replied. |
||
amy | es_ES | Femenino | Inglés (británico) | What are you looking at?' he said as he stood over me. They got off the bus and started searching the baggage compartment. The tension on the bus was like a dark, menacing cloud that hovered above us. |
Puede elegir entre estas opciones de voz que se adapten a su aplicación y caso de uso. Para obtener más información sobre el motor generativo, visite Voces generativas en la documentación de AWS.
Comience a usar voces generativas
Puede acceder a las nuevas voces mediante la consola de administración de AWS, la interfaz de línea de comandos de AWS (AWS CLI) o los SDK de AWS.
Para comenzar, vaya a la consola de Amazon Polly en la región de EE. UU. (Norte de Virginia) y elija el Texto a voz menú en el panel izquierdo. Si seleccionas la voz de Ruth o Matthew en el idioma de inglés, EE. UU. o Amy en inglés, Reino Unido, puedes elegir la Generativo motor. Ingrese su texto y escuche o descargue la salida de voz generada.
Con la CLI, puede enumerar las voces que utilizan el nuevo motor generativo:
$ aws polly describe-voices --output json --region us-east-1 \
| jq -r '.Voices[] | select(.SupportedEngines | index("generative")) | .Name'
Matthew
Amy
Ruth
Ahora, ejecute el comando CLI synthesize-speech para sintetizar texto de muestra en un archivo de audio (hello.mp3) con los parámetros del motor generativo y una ID de voz compatible.
$ aws polly synthesize-speech --output-format mp3 --region us-east-1 \
--text "Hello. This is my first generative voices!" \
--voice-id Matthew --engine generative hello.mp3
Para obtener más ejemplos de código utilizando los SDK de AWS, visite Ejemplos de código y aplicación en la documentación de AWS. Puede utilizar ejemplos de código Java y Python, ejemplos de aplicaciones como aplicaciones web que utilizan Java o Python, o aplicaciones iOS y Android.
Ya disponible
Las nuevas voces generativas de Amazon Polly ya están disponibles hoy en la región Este de EE. UU. (Norte de Virginia). Solo paga por lo que usa en función de la cantidad de caracteres de texto que convierte a voz. Para obtener más información, visite nuestra página de precios de Amazon Polly.
Pruebe hoy nuevas voces generativas en la consola de Amazon Polly y envíe sus comentarios a AWS re: Publicación para Amazon Polly o a través de sus contactos habituales de AWS Support.
— chany
GIPHY App Key not set. Please check settings