in

La curva de aprendizaje, parte 1: Por qué la enseñanza de nuevos lenguajes de IA comienza con los datos

Samsung Research en Indonesia es parte de una serie sobre las personas y las innovaciones detrás de la democratización de la IA móvil


A medida que Samsung continúa siendo pionero en experiencias premium de IA móvil, visitamos los centros de investigación de Samsung en todo el mundo para conocer cómo Galaxy AI permite que más usuarios maximicen su potencial. Galaxy AI ahora admite 16 idiomas, por lo que más personas pueden ampliar sus capacidades lingüísticas, incluso sin conexión, gracias a la traducción en el dispositivo en funciones como Live Translate, Interpreter, Note Assist y Browsing Assist. Pero, ¿qué implica el desarrollo del lenguaje de IA? Esta serie examina los desafíos de trabajar con IA móvil y cómo los superamos. En primer lugar, nos dirigimos a Indonesia para saber dónde se empieza a enseñar a la IA a hablar un nuevo idioma.

El primer paso es establecer objetivos, según el equipo del Samsung R&D Institute Indonesia (SRIN). “Una gran IA comienza con datos relevantes y de buena calidad. Cada idioma exige una forma diferente de procesar esto, por lo que profundizamos para comprender las necesidades lingüísticas y las condiciones únicas de nuestro país”, dice Junaicillah Fadlil, jefe de IA en SRIN, cuyo equipo recientemente agregó soporte en bahasa indonesio (idioma indonesio) a IA galaxia. «El desarrollo del lenguaje local debe estar liderado por el conocimiento y la ciencia, por lo que cada proceso para agregar idiomas a Galaxy AI comienza con nosotros planificando qué información necesitamos y podemos obtener de manera legal y ética».

Las funciones de Galaxy AI, como Live Translate, realizan tres procesos principales: reconocimiento automático de voz (ASR), traducción automática neuronal (NMT) y texto a voz (TTS). Cada proceso necesita un conjunto distinto de información.

Imagen de La curva de aprendizaje, parte 1

ASR, por ejemplo, necesita grabaciones extensas de voz en numerosos entornos, cada una de ellas combinada con una transcripción de texto precisa. Los distintos niveles de ruido de fondo ayudan a tener en cuenta los diferentes entornos. «No basta con añadir ruidos a las grabaciones», explica Muchlisin Adi Saputra, líder de ASR del equipo. “Además de los datos de idioma que obtuvimos de 3 autorizadostercero compañeros de partido, debemos salir a cafeterías o entornos de trabajo para grabar nuestras propias voces. Esto nos permite capturar auténticamente sonidos únicos de la vida real, como personas gritando o el ruido de los teclados”.

Imagen de La curva de aprendizaje, parte 1
También hay que tener en cuenta la naturaleza siempre cambiante de las lenguas. Saputra añade: “Necesitamos mantenernos actualizados sobre la jerga más reciente y cómo se usa, ¡y principalmente la encontramos en las redes sociales!”

A continuación, NMT requiere datos de capacitación en traducción. «Traducir al bahasa indonesio es un desafío», dice Muhamad Faisal, líder de NMT del equipo. «Su uso extensivo de significados contextuales e implícitos se basa en señales sociales y situacionales, por lo que necesitamos numerosos textos traducidos a los que la IA pueda hacer referencia para nuevas palabras, palabras extranjeras, nombres propios y modismos: cualquier información que ayude a la IA a comprender el contexto y las reglas. de comunicación.»

Imagen de La curva de aprendizaje, parte 1

Luego, TTS requiere grabaciones que cubran una variedad de voces y tonos, con contexto adicional sobre cómo suenan partes de las palabras en diferentes circunstancias. «Unas buenas grabaciones de voz podrían hacer la mitad del trabajo y cubrir todos los fonemas (unidades de sonido del habla) necesarios para el modelo de IA», añade Harits Abdurrohman, líder de TTS. «Si un actor de doblaje hizo un gran trabajo en la fase anterior, la atención se centra en refinar el modelo de IA para pronunciar claramente palabras específicas».

Imagen de La curva de aprendizaje, parte 1

Más fuertes juntos
Se necesitan enormes recursos para planificar una gran cantidad de datos, y SRIN trabajó en estrecha colaboración con expertos en lingüística. “Este desafío requiere creatividad, ingenio y experiencia tanto en bahasa indonesio como en aprendizaje automático”, reflexiona Fadlil. «La filosofía de colaboración abierta de Samsung jugó un papel importante en la realización del trabajo, al igual que nuestra escala de operaciones y nuestra historia de desarrollo de IA».

Al trabajar con otros centros de investigación de Samsung en todo el mundo, el equipo SRIN pudo adoptar rápidamente las mejores prácticas y superar las complejidades de establecer objetivos de datos. Además, la colaboración fue buena para hacer avanzar no sólo la tecnología sino también la cultura. Cuando el equipo SRIN se unió a sus homólogos en Bangalore, India, observaron las costumbres locales de ayuno, crearon conexiones más profundas y ampliaron su comprensión de diferentes culturas.

Imagen de La curva de aprendizaje, parte 1

Para el equipo, el proyecto de expansión lingüística de Galaxy AI adquirió un nuevo significado. «Estamos particularmente orgullosos de nuestros logros aquí, ya que este fue nuestro primer proyecto de IA y no será el último mientras continuamos perfeccionando nuestros modelos y mejorando la calidad de la producción», concluye Fadlil. «Esta expansión no sólo refleja nuestros valores de apertura sino que también respeta e incorpora nuestras identidades culturales a través del idioma».

Imagen de La curva de aprendizaje, parte 1

En el próximo episodio de The Learning Curve, nos dirigiremos al Samsung R&D Institute Jordan para hablar con el equipo que dirigió el proyecto en idioma árabe de Galaxy AI. Sintonícese para conocer las complejidades de crear y entrenar un modelo de IA para un idioma con diversos dialectos.

Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Nueva aplicación desenmascara documentos falsificados

Una aplicación para teléfonos inteligentes puede desenmascarar documentos falsificados

Los lanzamientos de Sony ZV-E10II, Canon R5II y Leica M11-D se posponen hasta junio