Nominalizaciones deverbales: Denotación y estructura argumental

Author

Peris Morant, Aina

Director

Taulé Delor, Mariona

Rodríguez Hontoria, Horacio

Date of defense

2012-05-11

Legal Deposit

B. 18933-2012

Pages

271 p.



Department/Institute

Universitat de Barcelona. Departament de Lingüística General

Abstract

Las nominalizaciones deverbales del español son construcciones lingüísticas que se caracterizan por presentar propiedades propias de los sustantivos pero al mismo tiempo poder heredar la estructura argumental de los verbos de los que derivan. Esta dualidad les confiere un notable interés lingüístico porque, por una parte, pueden denotar tanto un estado o el resultado de la denotada por el verbo base correspondiente, como pueden también denotar la misma acción o evento que expresa el verbo base, y por tanto, ser paráfrasis de cláusulas oracionales. Por otra parte, son sustantivos que tienen capacidad argumental, es decir, seleccionan argumentos y, en este sentido, es relevante observar los patrones de realización sintáctico-semántica de los argumentos de las nominalizaciones, ya que suponen una manera alternativa de expresar el significado contenido en una oración. Además del intrínseco valor lingüístico que tiene el estudio de estas construcciones, también desde un punto de vista del Procesamiento del Lenguaje Natural resulta interesante disponer de herramientas y recursos que traten y representen las nominalizaciones deverbales del español, tanto en lo que se refiere a la denotación como a la estructura argumental. Tareas como la resolución de la correferencia o la detección de paráfrasis pueden beneficiarse de una herramienta o un recurso que trate el tipo denotativo de las nominalizaciones, y aplicaciones de extracción de información o de búsqueda de respuestas, así como los sistemas de etiquetado semántico, pueden aprovechar herramientas y recursos que representen la estructura argumental de las nominalizaciones deverbales. Esta tesis pretende conjugar el estudio de las nominalizaciones deverbales tanto desde un punto de vista lingüístico como desde la perspectiva del Procesamiento del Lenguaje Natural. La tesis está dividida en cuatro partes que responden a esa voluntad. La primera parte de este trabajo nos pone en antecedentes acerca de las nominalizaciones deverbales. Se define el objeto de estudio, se presenta la metodología utilizada y se ofrece una revisión bibliográfica amplia que incluye tanto trabajos fundamentalmente teóricos como trabajos esencialmente computacionales sobre las nominalizaciones deverbales. La segunda parte se centra en la estructura argumental de las nominalizaciones deverbales. En primer lugar, se presenta el estudio lingüístico basado en corpus sobre la realización sintáctico-semántica de los argumentos. A partir de este estudio, se extraen una serie de hipótesis lingüísticas sobre qué constituyentes son argumentos de las nominalizaciones y cuáles no, y qué tipo de argumento verbal se asocia a constituyentes específicos en el dominio nominal. En segundo lugar, estas hipótesis lingüísticas están en la base del paquete de reglas heurísticas (RHN) creado para anotar automáticamente la estructura argumental de las nominalizaciones deverbales en el corpus AnCora-Es. La evaluación de estas reglas heurísticas aporta nuevas observaciones sobre la realización de la estructura argumental de las nominalizaciones deverbales y confirma parte de las hipótesis iniciales. La tercera parte trata sobre la denotación de las nominalizaciones deverbales. Primero, se presenta el estudio empírico basado en corpus realizado sobre la distinción entre evento y resultado. De este estudio empírico se obtienen una serie de criterios lingüísticos para establecer dicha distinción, y además, se establece una nueva clase denotativa subespecificada para aquellos casos en los que el contexto oracional es insuficiente. Los criterios lingüísticos resultan de la determinación de qué criterios propuestos en la bibliografía son relevantes para el español, del análisis lingüístico realizado, y de la observación de las reglas simbólicas generadas en los experimentos computacionales para evaluar los criterios anteriores. Estos experimentos están en la base del clasificador ADN, un sistema automático cuyo objetivo es clasificar las nominalizaciones deverbales según su denotación. Este clasificador se desarrolló como herramienta necesaria para la anotación de la denotación de las nominalizaciones deverbales del corpus AnCora-Es y, finalmente, se ha convertido en el primer clasificador de denotaciones del español capaz de trabajar en diferentes escenarios. En la cuarta parte se describen los dos recursos generados en esta tesis: el enriquecimiento del corpus AnCora-Es con la anotación de la denotación y la estructura argumental de las nominalizaciones deverbales, y la inducción del léxico AnCora-Nom a partir de esta anotación. En relación a AnCora-Es, se detallan los procesos de validación manual de la estructura argumental y la denotación, concretamente, los criterios específicos de validación y las pruebas de acuerdo entre anotadores. Respecto a AnCora-Nom, se especifica la generación automática del léxico a partir del corpus validado, evidenciando la posibilidad de obtener dos recursos con un único proceso de validación manual, el del corpus. Finalmente, en las conclusiones se recogen las aportaciones de esta tesis a la comunidad científica. Estas aportaciones consisten básicamente en herramientas y recursos computacionales para el tratamiento y representación de las nominalizaciones deverbales del español, y en el análisis lingüístico que caracterizan las nominalizaciones deverbales tanto con respecto a la denotación como a la estructura argumental, conjugando las dos perspectivas de estudio de este trabajo.


Some Spanish deverbal nominalizations can denote both the state or the result of the action expressed by the corresponding base verb as well as the same action or event expressed by the base verb. On the other hand, these nominalizations are nouns with argument taking capacity, that is, they select arguments. This thesis aims to study deverbal nominalizations both from Linguistics and NLP approaches. The thesis is divided into four parts, which reflect these two perspectives. The first part defines the object of study, presents the methodology used and provides an extensive review of the literature, including both theoretical and computational works on deverbal nominalizations. The second part focuses on the argument structure of deverbal nominalizations. We present our corpus-based linguistic study of the syntactic-semantic realization of arguments. From this study, we extracted a series of hypotheses about which constituents are arguments of nominalizations and which are not, and what kind of verbal argument is associated with specific constituents in the nominal domain. These assumptions underlie the RHN package of heuristics rules created to automatically annotate the argument structure of deverbal nominalizations in the Ancora-Es corpus. The evaluation of these heuristics provides new observations on the realization of the argument structure of deverbal nominalizations and confirms part of our initial hypotheses. The third part deals with the denotation of deverbal nominalizations. First, we present our empirical corpus-based study of the distinction between event and result nominalizations. From this empirical study a series of linguistic criteria for establishing that distinction was obtained. We also established a new denotative class, underspecified, for those cases in which the sentence context is not enough for disambiguation. The linguistic criteria result from determining which criteria proposed in the literature are relevant for Spanish, from the linguistic analysis performed, and from the observance of the symbolic rules generated in the computational experiments to evaluate the above criteria. These experiments are in the base of the ADN-Classifier, an automatic system for the classification of deverbal nominalizations according to their denotation. The fourth part describes the two resources generated in this thesis: the enrichment of the Ancora-Es corpus by annotating the denotation and argument structure of deverbal nominalizations, and the extraction from this annotation of the Ancora-Nom lexicon. Finally, the contributions of this thesis to the scientific community are presented in the conclusions. These contributions consist of, on the one hand, computational tools and resources for the treatment and representation of Spanish deverbal nominalizations. And, on the other hand, the linguistic analysis carried out to characterize deverbal nominalizations with respect to both their denotation and their argument structure, combining the two approaches of this work.

Keywords

Lingüística; Computació; Nominalització; Computación; Nominalización

Subjects

81 - Linguistics and languages

Knowledge Area

Ciències Humanes i Socials

Documents

APM_TESIS.pdf

2.659Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/3.0/es/

This item appears in the following Collection(s)