Injection of linguistic knowledge into neural text generation models

Autor/a

Casas Manzanares, Noé

Director/a

Rodríguez Fonollosa, José A. (Jose Adrián)

Codirector/a

Ruiz, Marta, 1981- .

Data de defensa

2020-12-14

Pàgines

133 p.



Departament/Institut

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

Resum

Language is an organic construct. It emanates from the need for communication and changes through time, influenced by multiple factors. The resulting language structures are a mix of regular syntactic and morphological constructions together with divergent irregular elements. Linguistics aims at formalizing these structures, providing a rationalization of the underlying phenomena. However, linguistic information alone is not enough to fully characterize the structures in language, as they are intrinsically tied to meaning, which constrains and modulates the applicability of the linguistic phenomena and also to context and domain. Classical machine translation approaches, like rule-based systems, relied completely on the linguistic formalisms. Hundreds of morphological and grammatical rules were wired together to analyze input text and translate it into the target language, trying to take into account the semantic load carried by it. While this kind of processing can satisfactorily address most of the low-level language structures, many of the meaning-dependent structures failed to be analyzed correctly. On the other hand, the dominant neural language processing systems are trained from raw textual data, handling it as a sequence of discrete tokens. These discrete tokens are normally defined looking for reusable word pieces identified statistically from data. In the whole training process, there is no explicit notion of linguistic knowledge: no morphemes, no morphological information, no relationships among words, or hierarchical groupings.This thesis aims at bridging the gap between the neural systems and linguistics-based systems, devising systems that have the flexibility and good results of the former with a base on the linguistic formalisms, with the purposes of improving quality where data alone cannot and forcing human-understandable working dynamics into the otherwise black-box neural systems. For this, we propose techniques to fuse statistical subwords with word-level linguistic information, to remove subwords altogether and rely solely on lemmas and morphological traits of the words, and to drive the text generation process on the ordering defined by syntactic dependencie. The main results of the proposed methods are the improvements in translation quality that can be obtained by injecting morphological information into NMT systems when testing on out-of-domain data for morphologically-rich languages, and the control over the generated text that can be gained by means of linking the generation order to the syntactic structure.


El lenguaje es una construcción orgánica que surge de la necesidad de comunicación, y que cambia a lo largo del tiempo, influenciado por múltiples factores, resultando en estructuras del lenguaje donde se mezclan construcciones morfológicas y sintácticas regulares con otros elementos irregulares. La lingüística tiene como objetivo el formalizar estas estructuras, proponiendo interpretaciones de los fenómenos subyacentes. Sin embargo, la lingüística no es suficiente para caracterizar de manera completa las estructuras del lenguaje, ya que éstas se encuentran intrínsicamente ligadas tanto al significado -al restringir y modular éste la aplicabilidad de los fenómenos lingüísticos- como al contexto y al dominio. Las técnicas de traducción automática clásicas empleadas por los sistemas basados en reglas, se basan en formalismos lingüísticos, haciendo uso de miles de reglas morfológicas y gramaticales para analizar texto del idioma de origen y traducirlo al idioma de destino, intentando mantener la carga semántica original. Aunque este tipo de traducción procesa adecuadamente la estructuras de bajo nivel del lenguaje, muchas estructuras dependientes del significado no son analizadas correctamente. Los sistemas de procesado del lenguaje natural dominantes, en cambio, se entrenan usando texto como datos de entrada. Dicho texto se procesa como una secuencia de elementos discretos, normalmente definidos como trozos de palabras o sub-palabras, que se agrupan en una estructura de diccionario que es confecccionado estadísticamente de modo que se maximice el reuso de sus sub-palabras al codificar el texto de entrenamiento. En todo este proceso, no hay ninguna noción explícita de conocimiento lingüístico, ni morfemas, ni información morfológica, ni relaciones sintácticas entre palabras o grupos jerárquicos. El objetivo de esta tesis es hibridizar los sistemas neuronales y los sistemas basados en reglas lingüísticas, de manera que el resultado pueda mostrar la flexibilidad y buenos resultados de los primeros, pero teniendo una base lingüística que le permita tanto mejorar la calidad del texto generado en los casos en los que simplemente más datos no lo consiguen, como establer unas dinámicas de funcionamiento internas que sean entendibles por humanos, a diferencia de la naturaleza de "caja negra" de los sistemas neuronales normales. Para ello, se proponen técnicas para enriqueces las sub-palabras con información lingüística de nivel de palabra, ténicas para prescindir de las sub-palabras y basarse únicamente en el lema y los rasgos lingüísticos de las palabras, y técnicas para dirigir el orden de generación de texto mediante dependencias sintácticas. Los principales resultados de los métodos propuestos son la mejora en la calidad de traducción en sistemas neuronales a los que les inyectamos información lingüística, especialmente en escenarios de lenguas morfológicamente ricas con texto de distinto dominio, y el control directo del proceso de generación al ligarlo a las estructuras sintácticas del texto.

Matèries

004 - Informàtica; 81 - Lingüística i llengües

Àrea de coneixement

Àrees temàtiques de la UPC::Informàtica

Nota

Aplicat embargament des de la data de defensa fins a l'1 de febrer e 2021

Documents

TNCM1de1.pdf

2.135Mb

 

Drets

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Aquest element apareix en la col·lecció o col·leccions següent(s)