in

Microsoft Translator lanza traducción literaria al chino – Blog de Microsoft Translator

Microsoft Translator lanza traducción literaria al chino - Blog de Microsoft Translator

Al leer antiguo chino poesía, a menudo nos maravillamos con las maravillosas palabras que los escritores antiguos podían usar para describir personas, eventos, objetos y escenas. Este es un espléndido tesoro cultural que se nos ha dejado. Sin embargo, similar a Shakespeares versos en el idioma inglés, el chino literario utilizado por estos poetas es a menudo difícil de entender para la gente de hoy en día, y los significados y sutilezas incrustados en él se pierden con frecuencia.

Para resolver este problema, los investigadores de Microsoft Research Asia adoptaron las últimas técnicas de traducción automática neuronal para entrenar modelos de traducción directa entre chino literario y chino moderno, lo que también da como resultado el apoyo a las capacidades de traducción entre chino literario y más de 90 idiomas y dialectos en Microsoft. Traductor. Actualmente, la traducción literaria al chino se ha integrado en la aplicación Microsoft Translator, Traductor de servicios cognitivos de Azurey varios productos de Microsoft compatibles con los servicios de Microsoft Translator.

Imagen: La pintura de «West Mountain in Misty Rain» de Shen Zhou, dinastía Ming. El antiguo poema chino sobre la pintura es de Yong Liu, dinastía Song del Norte. El poema describe el paisaje primaveral en el sur de China durante el Festival Qingming y la prosperidad de la vida social.

Permitir que más personas aprecien el encanto de la cultura tradicional china

El chino literario es un importante portador de la cultura tradicional china. Voluminosos libros y textos de la antigüedad han registrado a Chinas rica y profunda cultura de los últimos cinco mil años. Los pensamientos y la sabiduría acumulados y contenidos en ellos son dignos de exploración y pensamiento continuos.

Con la ayuda de la traducción automática, los turistas ahora pueden comprender los textos y poemas chinos antiguos escritos en edificios y monumentos históricos, los estudiantes ahora tienen una herramienta adicional para ayudarlos a aprender chino, y los investigadores que se dedican a cotejar y traducir textos antiguos pueden ser más productivos .

Dongdong Zhang, investigador principal de Microsoft Research Asia, dijo: “Desde una perspectiva técnica, el chino literario se puede considerar como un idioma separado. Una vez que se realiza la traducción entre el chino literario y el chino moderno, la traducción entre el chino literario y otros idiomas como el inglés, el francés y el alemán se convierte en algo habitual «.

Mayor dificultad del modelo de IA de traducción literaria al chino: pocos datos de entrenamiento

El elemento más crítico del entrenamiento de modelos de IA son los datos. Solo cuando el volumen de datos sea lo suficientemente grande y su calidad lo suficientemente alta pueden usted entrenar un modelo más preciso. En la traducción automática, el entrenamiento del modelo requiere datos bilingües: datos del texto original y datos del idioma de destino. La traducción del chino literario es muy especial, como lo’No es un idioma que se use en la vida diaria. Por tanto, en comparación con la traducción de otros idiomas, los datos de formación de la traducción literaria al chino son muy pequeños, lo que no favorece la formación de modelos de traducción automática.

Aunque los investigadores de Microsoft Research Asia recopilaron una gran cantidad de datos chinos modernos y literarios disponibles al público en las primeras etapas, los datos originales no se pueden utilizar directamente. La limpieza de datos debe realizarse para normalizar los datos de diferentes fuentes, varios formatos, así como de ancho completo /puntuaciones de medio ancho, como un medio para minimizar la interferencia de datos no válidos en el entrenamiento del modelo. De esta manera, los datos de alta calidad disponibles reales se reducen aún más.

Según Shuming Ma, investigador de Microsoft Research Asia, para reducir el problema de la escasez de datos, los investigadores han realizado una gran cantidad de trabajo de síntesis y aumento de datos, que incluye:

Primero, carácter común alineación y expansión basadas para aumentar el tamaño de los datos de entrenamiento. Diferente de las traducciones entre chino y otros idiomas, como inglés, francés, ruso, etc., el chino literario y el chino moderno utilizan el mismo conjunto de caracteres. Aprovechando esta función, los investigadores de Microsoft Researchers Asia han utilizado algoritmos innovadores para permitir que la traducción automática recuerde caracteres comunes, realice una alineación natural y luego se expanda aún más a palabras, frases y oraciones cortas, sintetizando así una gran cantidad de datos utilizables.

En segundo lugar, deformar la estructura de la oración para mejorar la solidez de la traducción automática. Con respecto a interrupciones en textos y poemas, los investigadores han agregado una serie de variantes para hacer que las máquinas sean más integrales en el aprendizaje de poemas antiguos. Para las personas, incluso cuando ven una oración que está estructurada de manera anormal, como un poema segmentado en líneas basadas en el ritmo en lugar de oraciones completas, aún pueden juntar las partes y entenderlas. Pero para un modelo de traducción que nunca antes había visto tal segmentación, es probable que se confunda. Por lo tanto, la transformación del formato de datos no solo puede expandir la cantidad de datos de entrenamiento, sino también mejorar la solidez del entrenamiento del modelo de traducción.

En tercer lugar, realice una capacitación en traducción de caracteres tradicional y simplificada para aumentar la adaptabilidad del modelo. En chino, los caracteres tradicionales existen tanto en el chino literario como en el moderno. Cuando los investigadores entrenaron el modelo, para mejorar la adaptabilidad del modelo, no solo aprovecharon los datos en chino simplificado, sino que también agregaron datos en chino tradicional, así como datos mezclados con caracteres tradicionales y simplificados. Por lo tanto, el modelo puede comprender tanto el contenido tradicional como el simplificado, lo que conduce a resultados de traducción más precisos.

Cuarto, aumentar la formación de palabras extranjeras para mejorar la precisión de la traducción. Al traducir chino moderno a chino literario, a menudo hay palabras modernas de palabras extranjeras y palabras nuevas que nunca han aparecido en chino antiguo, como “Microsoft”, “computadora”, “tren de alta velocidad” y muchas otras similares. Para abordar este problema, los investigadores entrenaron un pequeño modelo para reconocer entidades. El modelo primero tradujo el significado de la palabra fuera de la entidad, luego volvió a llenar la entidad para garantizar la precisión de la máquina.s procesamiento de las palabras extranjeras.

Imagen: Tél chino literario proceso de traducción

Además, para estilos de escritura informales como blogs, foros, Weibo, etc., el modelo de traducción automática se ha entrenado específicamente para mejorar aún más la solidez de la traducción entre chino moderno y literario.

Dongdong Zhang expresó: “Basándonos en el sistema de traducción actual, continuaremos enriqueciendo el conjunto de datos y mejorando el método de entrenamiento del modelo para hacerlo más robusto y versátil. En el futuro, es posible que el método no solo se utilice para la traducción literaria al chino, sino que también se pueda extender a otros escenarios de aplicación «.

Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Qué esperar del Apple Watch Series 7

Fin de semana gratuito de Pathfinder Kingmaker

Conquista y gobierna en Pathfinder: Kingmaker gratis este fin de semana