in

La curva de aprendizaje, parte 2: Cómo construir una IA para diversos dialectos

Historias de Medio Oriente sobre la complejidad de crear herramientas de inteligencia artificial para el árabe, un idioma con muchas facetas

Galaxy AI ahora admite 16 idiomas, lo que ayuda a más personas a reducir las barreras del idioma con traducción en tiempo real y en el dispositivo. Samsung abrió la puerta a una nueva era de la IA móvil, por lo que visitaremos los centros de investigación de Samsung en todo el mundo para aprender cómo nació Galaxy AI y qué se necesitó para superar los desafíos del desarrollo de la IA. Si bien la primera parte de la serie examina la tarea de determinar qué datos se necesitan, esta entrega analiza la compleja tarea de contabilizar los dialectos.

Enseñar un idioma a un modelo de IA es un proceso complejo, pero ¿qué pasa si no se trata de un idioma singular, sino de una colección de dialectos diversos? Ese fue el desafío que enfrentó el equipo del Samsung R&D Institute Jordan (SRJO). Si bien se agregó “árabe” como una opción de idioma para funciones de Galaxy AI como Live Translate, el equipo tuvo que atender a los diversos dialectos árabes que abarcan el Medio Oriente y el norte de África, cada uno de los cuales varía en pronunciación, vocabulario y gramática.

El árabe es uno de los seis idiomas más hablados en todo el mundo y lo utilizan diariamente más de 400 millones de personas.1. El idioma se clasifica en dos formas: Fus’ha (árabe estándar moderno) y Ammiya (los dialectos del árabe). Fus’ha se usa típicamente en eventos públicos y oficiales, así como en transmisiones de noticias, mientras que Ammiya se usa más comúnmente para conversaciones del día a día. Más de 20 países utilizan el árabe y actualmente existen alrededor de 30 dialectos en la región.



Reglas no escritas
Al reconocer la variación que presentan estos dialectos, el equipo de SRJO empleó una variedad de técnicas para discernir y procesar las características lingüísticas únicas inherentes a cada uno. Este enfoque fue crucial para garantizar que Galaxy AI pudiera comprender y responder de una manera que refleje con precisión los matices regionales.

«A diferencia de otros idiomas, la pronunciación del objeto en árabe varía según el sujeto y el verbo de la oración», dice Mohammad Haweeleh, jefe del equipo árabe de texto a voz (TTS). «Nuestro objetivo es desarrollar un modelo que comprenda todos estos dialectos y pueda responder en árabe estándar».

TTS es el componente de la función Live Translate de Galaxy AI que permite a los usuarios interactuar con hablantes de diferentes idiomas traduciendo palabras habladas a texto escrito y luego reproduciéndolas vocalmente. El equipo de TTS enfrentó un desafío único, causado por la peculiaridad de trabajar con árabe.


El árabe utiliza signos diacríticos, que son guías para la pronunciación de palabras en algunos contextos, como textos religiosos, poesía y libros para estudiantes de idiomas. Los hablantes nativos entienden ampliamente los signos diacríticos, pero están ausentes en la escritura cotidiana. Esto dificulta que una máquina convierta texto sin formato en fonemas, las unidades básicas de sonido que son los componentes básicos del habla.

«Hay una escasez de conjuntos de datos fiables y de alta calidad que representen con precisión cómo se utilizan correctamente los signos diacríticos», explica Haweeleh. «Tuvimos que diseñar un modelo neuronal que pudiera predecir y restaurar los signos diacríticos faltantes con gran precisión».

Los modelos neuronales funcionan de manera similar al cerebro humano. Para predecir los signos diacríticos, un modelo necesita estudiar muchos textos árabes, aprender las reglas del idioma y comprender cómo se usan las palabras en diferentes contextos. Por ejemplo, la pronunciación de una palabra puede variar mucho según la acción o el género que describe. La capacitación exhaustiva del equipo fue la clave para mejorar la precisión del modelo TTS árabe.

Mejorar la comprensión
El equipo de SRJO también tuvo que recopilar diversas grabaciones de audio de los dialectos de diversas fuentes, que tuvieron que ser transcritas, centrándose en sonidos, palabras y frases únicas. «Reunimos un equipo de hablantes nativos de los dialectos que conocían bien los matices y variaciones», dice Ayah Hasan, cuyo equipo fue responsable de la creación de la base de datos. «Escucharon las grabaciones y convirtieron manualmente las palabras habladas en texto».


Este trabajo fue crucial para mejorar el proceso de reconocimiento automático de voz (ASR) para que Galaxy AI pudiera manejar la rica variedad de dialectos árabes. ASR es fundamental para permitir las capacidades de respuesta y comprensión en tiempo real de Galaxy AI.

«Construir un sistema ASR que admita múltiples dialectos en un solo modelo es una tarea compleja», dice Mohammad Hamdan, líder de ASR para el proyecto. «Exige una comprensión profunda de las complejidades del lenguaje, una cuidadosa selección de datos y técnicas avanzadas de modelado».



La culminación de la innovación
Después de meses de planificación, construcción y pruebas, el equipo estaba listo para lanzar el árabe como una opción de idioma para Galaxy AI, lo que permitirá que muchas más personas se comuniquen a través de fronteras. Este único equipo ha hecho que los servicios de Galaxy AI sean accesibles para los hablantes de árabe, reduciendo las barreras lingüísticas y culturales entre ellos y las personas de todo el mundo. Al hacerlo, han establecido nuevas mejores prácticas que pueden implementarse a nivel mundial. Este éxito es solo el comienzo: el equipo continúa perfeccionando sus modelos y mejorando la calidad de las capacidades lingüísticas de Galaxy AI.



En el próximo episodio, vamos a Vietnam para ver cómo el equipo mejora los datos lingüísticos. Además, ¿qué se necesita para entrenar un modelo de IA eficaz?

El árabe es solo una parte de los idiomas y dialectos recientemente admitidos por Galaxy AI y disponibles para descargar desde la aplicación Configuración. Las funciones de idioma de Galaxy AI, como Live Translate e Interpreter, están disponibles en dispositivos Galaxy que ejecutan la actualización One UI 6.1 de Samsung.2

1 UNESCO, Día Mundial de la Lengua Árabe 2023

2 One UI 6.1 se lanzó por primera vez en dispositivos de la serie Galaxy S24 con una implementación más amplia a otros dispositivos Galaxy, incluidas las series S23, S23 FE, S22, S21, Z Fold5, Z Fold4, Z Fold3, Z Flip5, Z Flip4, Z Flip3. , Serie Tab S9 y Serie Tab S8

Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Consulte las principales predicciones estratégicas de Gartner para Al

La nueva norma de seguridad del DOT salvará la vida de los conductores de vehículos eléctricos

¿Adorama publicó las especificaciones reales de Canon R1 o simplemente copiaron las especificaciones rumoreadas que encontraron en la web?