Ayuda
Ir al contenido

Dialnet


Resumen de Neural machine translation evaluation & error analysis in a spanish-korean translation

Ahrii Kim

  • Desde la Traducción Automática (TA) basada en reglas a la TA estadística y la Traducción Automática Neuronal (TAN), el campo de la TA presenció, primero, un giro conceptual —desde aproximaciones basadas en reglas hasta aproximaciones basadas en datos— y ahora, un giro tecnológico —del algoritmo de la TA al de Aprendizaje Automático. Ahora que la TAN se ha convertido en un nuevo estado del arte, superando a la Traducción Automática Estadística en muchos pares de idiomas (Popescu-Belis, 2019), incluyendo el coreano con el chino (A.Chang, 2017) o el inglés (S.Kim y H.Lee, 2017) buscamos evaluar su desempeño en la traducción del español al coreano con métodos de evaluación de TA humanos y análisis de error, que constituye, según nuestro conocimiento, el primer intento al respecto.

    La tesis se compone de tres partes. La Parte I está dedicada a una presentación teórica de la TAN y la evaluación de TA. Basado en los fundamentos teóricos, la Parte II organiza un estudio piloto y un experimento de evaluación de TA con cuatro métodos de evaluación humanos — puntuación de fluidez y adecuación, clasificación de segmentos y posedición— y un método de evaluación semiautomático, HTER (Snover et al. , 2009). La Parte III analiza los datos adquiridos del experimento y lanza una investigación adicional de análisis de errores. Probamos el Traductor de Google de 2018 con textos extraídos del dominio de noticias compuestos por 253 frases. Seis traductores profesionales fueron contratados como poseditor y anotador con compensación, que eran nuevos en la posedición. El experimento duró dos semanas.

    En la puntuación de fluidez, el Traductor de Google obtuvo 3.12 en una escala de 1-4, igual al 78%. El 41,3% de los segmentos se marcaron como la escala más alta (4 - Sin defectos). En la puntuación de adecuación, obtuvo 3.11 de 4, igual al 77.75%, y 33,47% fueron calificados como la escala más alta (4 - Todo). En la clasificación de segmentos, el motor Google fue contrastado con un motor de TAN que se llamaba "Kakao i” y la traducción humana preparada por un traductor profesional. El Traductor de Google fue elegido como el candidato menos favorecido con 28.17%, obteniendo una calificación absoluta de 1.8 de 3. El 16.54% de sus oraciones obtuvo el primer rango, que podría interpretarse como una paridad humana. Aunque la traducción humana fue el candidato más favorecido, un resultado interesante fue que la TA (del Traductor de Google y Kakao i) fue más favorecida que la traducción humana por un 16% Entre muchas posibles razones, notamos la preferencia de los anotadores en la traducción literal y, por lo tanto, sugerimos la posibilidad de una nueva definición de "equivalencia" en la era de TA. En la posedición, donde la mitad de los segmentos fueron poseditados y la otra mitad se tradujo desde cero, la posedición fue un 37% más productiva en el tiempo, en un rango de 12% a 53%. Considerando Zhechev (2014) que afirmó que su motor obtuvo el 81.93% de productividad de posedición en una pareja inglés-coreana, esa cifra parecía estadísticamente menor. Además de la productividad de la posedición, el esfuerzo de posedición se midió desde aspectos temporales y técnicos. No se presenció ningún esfuerzo temporal en relación con la longitud de frase. Con respecto a los esfuerzos técnicos medidos por la distancia de edición del algoritmo de Levenshtein, resultó que el 26% de las frases casi no requerían modificaciones. Nuestro último método de evaluación de TA, HTER, informó un 0,403, lo que significa que el 40,3% de las frases necesitaban posedición.

    Con tal resultado en la mano, analizamos los tipos de errores en el par español-coreano encontrados en la traducción del sistema del Traductor de Google (253 frases) y su versión poseditada (127 frases por seis poseditores). La clasificación de error para nuestro estudio se modificó a partir de un modelo MQM para adaptarse a nuestro par de idiomas. Estaba compuesto por diez tipos de error: adición, omisión, traducción errónea, no traducida, puntuación, ortografía, espaciamiento, gramática, orden de palabras y estilo. El sistema de detección de errores fue prestado de HTER que consideraba cada edición por igual como una. El primer análisis de errores en la traducción del sistema informó que los errores principales se produjeron por la traducción errónea con un 39,2%, que eran elecciones de palabras incorrectas en nuestro caso. Sorprendentemente, uno de los menos errores se encontró en el orden de las palabras con 5.76%. Teniendo en cuenta nuestra combinación de idiomas, el hecho de que solo el 6% de los errores fueron por razones sintácticas mostró un futuro prometedor de la TAN en pares de idiomas distantes. En el segundo análisis de errores en la traducción del sistema poseditada del Traductor Google, se descubrió que la proporción de errores y las ediciones reales de los editores eran casi iguales. La mayoría de las ediciones se encontraron por traducción errónea (55%), y una de las menos ediciones fue por orden de palabras (8%).

    En conclusión, el desempeño de Traductor Google en la traducción del español al coreano en dominio de noticias es de una calidad sintácticamente alta y suficientemente buena como para comprender el texto sin dificultad, pero aún tiene dificultades léxicas, por lo que el 40% debe ser poseditado para alcanzar un nivel publicable. Esta tesis demuestra que en un nivel binario de sintaxis y léxico, la mayoría de los problemas de la TAN y su posedición viene del léxico. Esto manifiesta que la TAN es capaz de procesar un par de idiomas distantes de la misma manera que un par cercano, traduciendo los idiomas independientemente de su familia. En ese contexto y considerando que hace sólo dos años desde su llegada, esperamos que la dirección del desarrollo de la TAN sea deseable y que su futuro que se avecina sea muy prometedor.

    Bibliografía Chang, A. “Analysis of the Current Development of Machine Translation and Interpretation in Korea: Focusing on Korean-Chinese Language Pairs.” The Journal of Translation Studies 18(2) (2017): 171-206.

    Kim, S., and Lee, H. “Korean to English Translation of Embedded Sentences.” The Journal of Mirae English Language and Literature 22.4 (2017): 123-147.

    Popescu-Belis, A. “Context in Neural Machine Translation: A Review of Models and Evaluations.” (2019).

    Snover, M., Dorr B., Schwartz R., Micciulla L., and Makhoul J. “A Study of Translation Edit Rate with Targeted Human Annotation.” In Proceedings of Association for Machine Translation in the Americas, Cambridge, Massachusetts, USA (2006): 223– 231.

    Zhechev, V. “Analysing the Post-Editing of Machine Translation at Autodesk.” (2014).


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus