Neural machine translation evaluation & error analysis in a Spanish-Korean translation

Author

Kim, Ahrii

Director

Colominas, Carme

Date of defense

2019-10-14

Pages

301 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

From RBMT to SMT and NMT, the MT field witnessed, first, a conceptual turn —from rule-based to data-base— and now, a technological turn —from MT algorithm to ML algorithm. Now that NMT became a new state of the art, this thesis quested for evaluating its performance in a Spanish-to-Korean translation, which, for the best of our knowledge, was the first attempt in this regard. The results reported that the NMT-based Google Translate (GNMT) had about 78% of reliability. In an experiment with post-editing, the post-editing was 37% more productive in GNMT than translation from scratch. An important finding was obtained from quantitative and qualitative error analysis. It reported that only 6% of the errors detected in the dataset were a syntactic error in such a distant pair like this. The results of this thesis served as a proof of a promising future of NMT in distant pairs.


Des de la Traducció Automàtica (TA) basada en regles a la TA estadística i la TA neuronal (TAN), el camp de la TA va presenciar, primer, un gir conceptual - des d'aproximacions basades en regles fins aproximacions basades en dades- i ara, un gir tecnològic –de l’algoritme de la TA al d'Aprenentatge Automàtic. Ara que la TAN s'ha convertit en un nou estat de l'art, busquem avaluar el seu grau de qualitat en la traducció de l'espanyol al coreà,. Aquest estudie constitueix, segons el nostre coneixement, el primer que intenta avaluar aquest parell de llengües. Els resultats informen que Google Translate, basada en la TAN té al voltant el 78% de fiabilitat. En un experiment amb postedició, la postedició és un 37% més productiva que la traducció des de zero. Apartir d'una anàlisi d'errors quantitativa i qualitativa hem pogut fer constatar que només el 6% dels errors detectats van ser de naturalesa sintàctica en un parell de llengües tan distant com aquest. Els resultats obtinguts en aquesta tesi van servir com a prova per a un futur prometedor de la TAN en parells distants.


Desde la Traducción Automática (TA) basada en reglas a la TA estadística y la TA neuronal (TAN), el campo de la TA presenció, primero, un giro conceptual —desde aproximaciones basadas en reglas hasta aproximaciones basadas en datos— y ahora, un giro tecnológico —del algoritmo de la TA al de Aprendizaje Automático. Ahora que la TAN se ha convertido en un nuevo estado del arte, buscamos evaluar su desempeño en la traducción del español al coreano, que constituye, según nuestro conocimiento, el primer intento al respecto. Los resultados informan que Google Translate basada en la TAN tenía alrededor del 78% de fiabilidad. En un experimento con posedición, la posedición es un 37% más productiva que la traducción desde cero. Obtuvimos un hallazgo importante a partir de un análisis de errores cuantitativo y cualitativo. Informamos que solo el 6% de los errores detectados fueron sintácticos en un par de lenguas tan distante como este. Nuestros resultados sirvieron como prueba para un futuro prometedor de la TAN en pares distantes.

Keywords

Neural machine translation; MT evaluation; Error analysis; Spanish-Korean translation; Traducció automàtica neuronal; Avaluació de traducció automàtica; Anàlisi d'errors; Traducció de l'espanyol-coreà; Traducción automática neuronal; Evaluación de traducción automática; Análisis de errores; Traducción del español-coreano

Subjects

81 - Linguistics and languages

Documents

tak.pdf

16.76Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)