in

La curva de aprendizaje, parte 9: Crear conversaciones desde Japón hacia el mundo

Mientras Samsung continúa siendo pionero en experiencias premium de IA móvil, visitamos los centros de investigación de Samsung en todo el mundo para conocer cómo Galaxy AI permite que más usuarios maximicen su potencial. Galaxy AI ahora admite 16 idiomas, por lo que más personas pueden expandir sus capacidades lingüísticas, incluso sin conexión, gracias a la traducción en el dispositivo en funciones como Live Translate, Interpreter, Note Assist y Browsing Assist. Pero, ¿qué implica el desarrollo del lenguaje de IA? La última vez, visitamos Polonia para descubrir cómo los países europeos colaboran para lograr su objetivo. Esta vez, estamos en Japón para ver cómo los desarrolladores se adaptan constantemente a nuevos escenarios y casos de uso.

Samsung R&D Institute Japan (SRJ) se creó como un centro de investigación y desarrollo centrado en hardware, como electrodomésticos y pantallas. Con la creciente demanda de innovación en inteligencia artificial a nivel mundial, SRJ en Yokohama también ha estado operando un laboratorio de desarrollo de software para crear Live Translate de Galaxy AI, que traduce automáticamente llamadas de voz en tiempo real, desde fines del año pasado.

“Live Translate es especialmente eficaz en situaciones de viaje, como por ejemplo para los visitantes de los Juegos Olímpicos de París de este año”, afirma Takayuki Akasako, director de Inteligencia Artificial de SRJ. “Actualmente estamos desarrollando un programa de reconocimiento de voz para personas que estén haciendo turismo y viendo los Juegos Olímpicos de París; entrenando el programa de reconocimiento de voz para que aprenda sobre los juegos y las ubicaciones de los estadios de París 2024”.



Comprender el contexto en el reconocimiento de voz
Para quienes ya utilizan las funciones de traducción de Galaxy AI, estas funciones pueden parecer muy útiles, pero los desarrolladores que han hecho realidad estas funciones saben que poder comunicarse mientras se viaja al extranjero no es algo que se pueda dar por sentado.

Una cosa que el equipo notó fue que hay más homónimos en japonés que en otros idiomas. Por ejemplo, «palillos chinos» (Hashi, 箸) y «puente» (Hashi, 橋) son relativamente fáciles de distinguir debido a la diferencia en la entonación, pero palabras como «turismo» (Kankō, 観光), «costumbres» (Kankō, 慣行), «público» (Kōkyō, 公共) y «prosperidad» (Kōkyō, 好況) deben juzgarse en función del contexto.

Imagen corporal de la curva de aprendizaje 9 Japón
“El juicio se vuelve más difícil cuando el contexto es ambiguo, como los nombres de lugares y personas, nombres propios, dialectos y números”, dice Akasako. “Por lo tanto, para mejorar la precisión del reconocimiento de voz, se necesitan muchos datos”.

“Siempre buscamos formas de ajustar el modelo de IA para eventos y momentos clave de manera oportuna”, continúa Akasako. “Con tantas combinaciones nuevas de nombres de lugares y actividades, es importante que el contexto siga siendo claro cuando las personas usan Galaxy AI”.

Imagen corporal de la curva de aprendizaje 9 Japón

Desafíos en la recopilación eficiente de datos
Si bien reconocer los tipos de datos necesarios también es importante, recopilarlos en sí mismo es un desafío.

Anteriormente, el equipo de SRJ utilizó datos registrados por humanos para entrenar el motor de reconocimiento de voz para Live Translate, lo que no resultó en una recopilación de datos suficiente.

Samsung Gauss, el modelo de lenguaje grande (LLM) de la empresa, utiliza scripts para estructurar oraciones con palabras o frases relevantes para cada escenario. Los datos recopilados con Samsung Gauss no solo son registrados por humanos, sino que también son generados por un sistema de síntesis de voz (TTS), a través del cual los recursos humanos realizan el control final de la calidad. Con este método, el equipo ha visto una mejora espectacular en la eficiencia de la recopilación de datos.

“Cada vez que se identifica y se resuelve un problema, la precisión del reconocimiento de voz mejora significativamente”, afirma Akasako. “Independientemente de dónde se encuentren las personas, nuestro objetivo es conectarlas entre sí, y las herramientas impulsadas por Galaxy AI garantizarán una comunicación más divertida y eficiente”.

Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

¿Qué pasó con los

¿Qué pasó con los «Me gusta»? X ahora oculta a otros usuarios qué publicaciones te gustan

El nuevo Topaz Video AI trae un modelo de mejora completamente nuevo, además de integración con After Effects, compatibilidad con capas alfa y más