Linguistic support for protest event data collection

Author

Danilova, Vera

Director

Blanco Escoda, Xavier

Alexandrov, Mikhail

Date of defense

2015-11-27

ISBN

9788449061837

Pages

161 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Filologia Espanyola

Abstract

sta tesis aborda el problema de la cualidad de recopilación automática de datos sobre protestas y propone herramientas de extracción multilíngüe de atributos del evento de protesta para mejorar la calidad de la unidad de análisis. El trabajo incluye la exploración del estado de arte en los dominios de la recopilación automática de datos sobre protestas y la extracción multilíngüe de eventos. En la ausencia de una colección de datos multilíngües sobre protestas anotados por expertos para el aprendizaje supervisado nos enfocamos en el tratamiento de noticias multilíngües basado en patrones lingüísticos conectados a una jerarquía de conceptos relacionados con el evento de protesta. Las gramáticas y lexicones han sido elaborados según los estándares de GATE 8.0, y la jerarquía de conceptos ha sido formalizada en Protégé - 4.3. El presenta trabajo contribuye al tratamiento automático de bases de datos sobre protestas con lo siguiente: colección automática de un corpus de noticias relacionadas con el evento de protesta; descripción formalizada del evento de protesta basada en un estudio detallado de un corpus de noticias multilíngües (en búlgaro, francés, polaco, ruso, español y sueco); elaboración de patrones genéricos y lexicones multilíngües conectados a la jerarquía de conceptos que resuelve el problema de la ausencia de una colección de datos preanotados por expertos; Los datos obtenidos pueden aplicarse, entre otros, en el monitoreo y análisis de protestas y la relacionada comunicación de usuarios en las redes sociales.


This thesis addresses the problem of automatic protest event collection quality and proposes the tools for multilingual protest feature extraction to improve the quality of analysis unit. This work includes the exploration of the state of the art in protest event data collection and multilingual event extraction. In the absence of a multilingual training dataset for supervised learning we focus on the rule-based approach to multilingual event extraction and connection of a domain concept hierarchy. Grammars and gazetteers have been elaborated in accordance with the standards of GATE 8.0, and the protest event hierarchy has been formalized using Protégé - 4.3. The present work contributes to the automatic protest event data collection and coding by the following: construction of a multilingual corpus of texts related to protest events; a formalized description of the protest event concept on the basis of a detailed examination of a multilingual corpus of news headlines (Bulgarian, French, Polish, Russian, Spanish, Swedish); elaboration of generic patterns and gazetteers for multilingual text processing, which helps to deal with the absence of a multilingual training set. The obtained data can be applied among others for the monitoring and analysis of event-specific social networks’ response.

Keywords

Extracció d'esdeveniments; Event extraction; Extracción de eventos; Parsing multilingüe; Multilingual parsing; Parsing multilingüe; Anàlisi de dades sobre protestas; Prostest event analysis; Análisis de datos sobre protestas

Subjects

81 - Linguistics and languages

Knowledge Area

Ciències Humanes

Documents

vd1de1.pdf

2.006Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

This item appears in the following Collection(s)