Resumen de Evaluación de estrategias para la traducción automática estadística de chino a castellano con el inglés como lengua pivote

Ayuda

Resumen de Evaluación de estrategias para la traducción automática estadística de chino a castellano con el inglés como lengua pivote

Marta R. Costa-Jussá, Carlos Henríquez, Rafael Banchs

español
El chino y el castellano son los idiomas más hablados en el mundo como lenguas maternas. Sin embargo, no existe mucha actividad de investigación en traducción automática entre este par de lenguas. Este artículo se enfoca en la investigación del estado actual de la cuestión de la traducción automática estadística entre chino-castellano, ya que hoy en día constituye una de las aproximaciones más usadas dentro del área de la traducción automática. Con este propósito en mente, describimos los corpus paralelos disponibles como el BTEC (Basic Traveller Expressions Corpora), la Biblia y las Naciones Unidas (UN). Concretamente, experimentamos con diferentes estrategias de traducción automática estadística directa e indirectas (denominadas pivotes). Entre las estrategias pivotes exploramos dos metodologías: la traducción de chino a pivote y de pivote a castellano; y el sistema entrenado con un pseudo-corpus chino-castellano, en el que el castellano se ha traducido previamente del pivote. Usamos el inglés como lengua pivote. Los resultados experimentales sugieren que el inglés podría constituir una lengua óptima para la intermediación de la traducción entre chino y castellano. Así pues, uno de los principales objetivos de este trabajo es motivar a la comunidad científica para investigar en este par de lenguas de alto impacto demográfico.
English
Chinese and Spanish are the most spoken languages in the world. However, there is not much research done in machine translation for this language pair. This paper focuses on investigating the state-of-the-art of Chinese-Spanish Statistical Machine Translation, which nowadays is one of the more popular approaches in Machine Translation. For this purposes we report the details of the available parallel corpus which are the BTEC (Basic Traveller Expressions Corpora), Holy Bible and UN (United Nations). Additionally, we experiment with the biggest corpus (UN) to explore alternatives of SMT strategies which consist on using a pivot language. Two alternatives are shown for pivoting: translating from Chinese to Pivot and from Pivot to Spanish; and training on a Chinese-Spanish corpus, where the Spanish corpus has been previously translated from the Pivot language. We use English as Pivot language. Results show that English is quite a nice pivot language between Chinese and Spanish. One of the main objectives of this work is motivating and involving the research community to work in this important pair of languages given the demographic impact of these two languages.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: