Tailoring dependency models to NLP tasks

Author

Kolz, Benjamin

Director

Badia i Cardús, Antoni

Saurí Colomer, Roser

Date of defense

2016-04-22

Pages

232 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

Currently available dependency structures differ significantly in the linguistic criteria they are based on, but are not always adequate for their later use in natural language processing tasks. This dissertation analyses the needs of some of these tasks, in particular temporal and discourse parsing, and suggests task-based dependency structures. A surface-syntax dependency structure is taken as base version, which is then tailored to the needs of the corresponding task by means of head selection, customised syntactic function tagset and collapsed dependencies. The work is grounded on the Spanish corpus AnCora, establishing a surface-syntax base version from its constituent structure level. Two dependency models are created, Temporal and Discourse Dependencies, which take the base version as input and adapt it automatically to the task-based versions. The resulting versions are evaluated by network analysis methods, which confirm the adequacy of these new dependency structures with respect to the specific tasks.


Las estructuras de dependencias disponibles actualmente incluyen diferencias significativas en cuanto a los criterios lingüísticos en que se basan, y no siempre son adecuadas para su uso en tareas del procesamiento de lenguaje natural. Esta tesis doctoral analiza las necesidades de algunas de estas tareas, concretamente los análisis temporal y discursivo, y propone la creación de estructuras de dependencias orientadas a las mismas. Una estructura de dependencias puramente sintáctica sirve como versión básica que se adapta a las necesidades de cada tarea a través de la selección del head, de un etiquetario de funciones sintácticas adecuado y del recorte de algunos caminos de dependencias. El proyecto parte de la versión castellana del corpus AnCora y establece una versión puramente sintáctica a partir de sus estructuras de constituyentes. Se crean dos modelos de dependencias, Temporal and Discourse Dependencies, que usan la versión básica como entrada y la adaptan de forma automática a las versiones orientadas en las tareas específicas. Las versiones resultantes se evalúan a través de métodos de análisis de redes, que confirman la adecuación de estas nuevas estructuras de dependencias para las respectivas tareas.

Keywords

Dependency parsing; Corpus; Discourse relations; Time expressions; Syntax analysis; Parsing de dependencias; Relaciones discursivas; Expresiones temporales; Análisis sintáctico

Subjects

81 - Linguistics and languages

Documents

tbk.pdf

2.009Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)