Automatic Machine Translation Evaluation: A Qualitative Approach

Author

Comelles Pujadas, Elisabet

Director

Arranz Corzana, Victoria

Castellón Masalles, Irene

Date of defense

2015-01-30

Legal Deposit

B 17203-2015

Pages

302 p.



Department/Institute

Universitat de Barcelona. Departament de Lingüística General

Abstract

The present study addresses the problem of Automatic Evaluation of Machine Translation (MT) from a linguistic perspective. Most of the studies performed in this area focus on quantitative analyses based on correlation coefficients; however, little has been done as regards a more qualitative approach, going beyond correlations and analysing data in detail. This thesis aims at shedding some light on the suitability, influence and combination of linguistic information to evaluate MT output, not restricting our research to the correlation with human judgements but basing it on a qualitative analysis. More precisely, this research intends to emphasize the effectiveness of linguistic analysis in order to identify and test those linguistic features that help in evaluating traditional concepts of adequacy and fluency. In order to perform this research we have focused on MT output in English, with an application to Spanish so as to test the portability of our approach. The starting point of this work was a linguistic analysis of both MT output and reference segments with the aim of highlighting not only those linguistic errors that an automatic MT evaluation metric must identify, but also those positive linguistic features that must be taken into account, identified and treated as correct linguistic phenomena. Once the linguistic analysis was conducted and in order to confirm our hypotheses and check whether those linguistic phenomena and traits identified in the analysis were helpful to evaluate MT output, we designed and implemented a linguistically-motivated MT metric, VERTa, to evaluate English output. Several experiments were conducted with this first version of VERTa in order to test the suitability of the linguistic features selected and how they should be combined so as to evaluate fluency and adequacy separately. Besides using information provided by correlations as a guide we also performed a detailed analysis of the metric’s output every time linguistic features were added and/or combined. After performing these experiments and checking the suitability of the linguistic information used and how it had to be used and combined, VERTa’s parameters were adjusted and an updated and optimised version of the metric was ready to be used. With this updated version and for the sake of comparison, a meta-evaluation of the metric for adequacy, fluency and MT quality was conducted, as well as a comparison to some of the best-known and widely-used MT metrics, showing that it outperformed them all when adequacy and fluency were assessed. Finally, we ported our MT metric to Spanish with the aim of studying its portability by checking which linguistic features in our metric would have to be slightly modified, which changes would have to be performed and finally if the metric would be easy to adapt to a new language. Furthermore, this version of VERTa for Spanish was compared to other well-known metrics used to evaluate Spanish, showing that it also outperformed them.


Aquesta tesi versa sobre el problema de l’avaluació de la traducció automàtica des d’una perspectiva lingüística. La majoria d’estudis realitzats en aquesta àrea són estudis quantitatius basats en coeficients de correlació, tanmateix, molt poca recerca s’ha centrat en un enfocament més qualitatiu, que vagi més enllà de les correlacions i analitzi les dades detalladament. Aquest treball vol portar llum a la idoneïtat, la influència i la combinació de la informació lingüística necessària per avaluar la sortida de traducció automàtica. En concret, es pretén emfasitzar l’efectivitat de l’anàlisi lingüística per identificar i examinar aquells trets lingüístics que ajudin a avaluar els conceptes tradicionals de fluïdesa i adequació. Per tal de realitzar aquest estudi s’ha treballat amb l’anglès com a llengua d’arribada, tot i que també s’ha tingut en compte el castellà en l’última etapa. El punt inicial d’aquest treball ha estat una anàlisi lingüística dels segments d’hipòtesi i de referència per tal de trobar tant aquells errors lingüístics que una mètrica automàtica d’avaluació ha de poder detectar, com identificar aquelles característiques lingüístiques que cal tenir en compte i tractar com a fenòmens lingüísticament correctes. Després d’aquesta anàlisi, s’ha dissenyat i implementat una mètrica d’avaluació automàtica, VERTa, que ha d’ajudar a confirmar les hipòtesis formulades i comprovar si els fenòmens i trets lingüístics detectats en l’anàlisi inicial són útils per avaluar text traduït automàticament. Amb aquesta primera versió de la mètrica s’han realitzat una sèrie d’experiments, així com unes anàlisis quantitatives i qualitatives per comprovar la idoneïtat dels trets lingüístics seleccionats i explorar com s’han de combinar per avaluar la fluïdesa i l’adequació per separat. Després d’aquests experiments i de les anàlisis pertinents, s’han ajustat els paràmetres de la mètrica per tal d’obtenir-ne una nova versió. Aquesta nova versió s’ha utilitzat per realitzar una meta-avaluació de la mètrica, comparant-la amb d’altres mètriques d’avaluació àmpliament conegudes i utilitzades dins de l’àrea. Els resultats obtinguts per la VERTa en relació a l’avaluació de fluïdesa i l’adequació han superat els de la resta de mètriques. Finalment, s’ha adaptat la mètrica al castellà per tal d’estudiar quines característiques lingüístiques incloses en la mètrica s’havien de retocar, quins canvis calia fer, i si era fàcil adaptar la mètrica a una nova llengua.

Keywords

Traducció automàtica; Traducción automática; Machine translating; Anàlisi lingüística; Análisis lingüístico; Linguistic analysis; Avaluació; Evaluación; Evaluation

Subjects

81 - Linguistics and languages

Knowledge Area

Ciències Humanes i Socials

Documents

ECP_PhD_THESIS.pdf

1.779Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)