Minería de opiniones basada en características guiada por ontología

Autor/a

Peñalver Martínez, Isidro

Director/a

Valencia García, Rafael

García Sánchez, Francisco

Fecha de defensa

2015-06-24

Páginas

326 p.



Departamento/Instituto

Universidad de Murcia. Departamento de Informática y Sistemas

Resumen

OBJETIVOS El trabajo realizado en esta tesis doctoral persigue los siguientes objetivos: (i) Definición y formalización de una metodología de minería de opiniones basada en características para clasificar los sentimientos de las opiniones. Esta metodología incluirá procesamiento del lenguaje natural, identificación de características, cálculo de la polaridad de las características y análisis de sentimientos; (ii) Diseño e implementación de una aplicación software para llevar a cabo el proceso de análisis de sentimientos de las opiniones de los usuarios. Este sistema se diseñará para cumplir con los requisitos que implica el entorno de minería de opiniones descrito. Se emplearán para ello las tecnologías más novedosas y los recursos mejor valorados disponibles actualmente; (iii) Validación de la aplicación de software en varios dominios. La metodología propuesta y el software desarrollado serán validados en dos dominios totalmente diferentes: opiniones sobre películas y finanzas. METODOLOGÍA La metodología que se ha creado responde a un innovador sistema de análisis de sentimientos basado en características que utiliza como base de conocimiento una ontología del dominio. Esta metodología propuesta es independiente del dominio y del idioma empleados. A partir de ella se identifican las características relevantes dentro de cada opinión. Durante el proceso de identificación se tiene en cuenta la estructura semántica de la ontología. Cada una de las frases que contengan expresiones lingüísticas que estén directamente relacionadas con términos de la ontología se tienen en cuenta para calcular la polaridad global de la opinión del usuario. La aplicación de esta metodología ha propiciado el desarrollo de un nuevo software para la clasificación de sentimientos de opiniones basado en cálculos vectoriales en el espacio R3. CONCLUSIONES El tipo de lenguaje informal que emplean los usuarios en sus opiniones dificulta mucho el empleo de técnicas de PLN efectivas. Las herramientas que tenemos en la actualidad no contemplan irregularidades lingüísticas en la mayoría de los casos. La investigación llevada a cabo en este trabajo ha estado motivada principalmente por la carencia de recursos, métodos y herramientas para un efectivo procesamiento de la información subjetiva. Además, el uso de ontologías en el proceso de minería de opiniones basada en características resulta muy beneficioso. El sistema de software implementado alcanza resultados óptimos cuando hay muchas palabras con alto contenido emocional cerca de la expresión lingüística que identifica a una característica dentro de la opinión de un usuario. Ya que el sistema tiene mucha información para poder calcular correctamente la polaridad de la característica. Dependiendo del dominio en el que se trabaje se tendrá un grado de subjetividad más o menos alto a la hora de clasificar las características identificadas en las opiniones. En dominios donde la ambigüedad y el margen de interpretación en función del contexto son bajos, cómo por ejemplo el dominio de las películas, los resultados para la clasificación de sentimientos de características serán buenos. En otros donde las opiniones tengan mucho margen de interpretación, exista un componente de ambigüedad alto y las opiniones tengan un significado muy ligado al momento temporal en el que se emiten, los resultados para la clasificación de sentimientos de características serán peores. Este es el caso del dominio financiero.


The work done in this thesis has the following objectives: (i) Definition and formalization of a feature-based opinion mining methodology to classify the feelings of opinions. This methodology will include natural language processing, feature identification, features polarity calculation and sentiment analysis; (ii) Design and implementation of a software application to perform the sentiment analysis in user reviews. This system will be designed to meet the requirements involving the methodology. The latest technologies and the most valued resources currently available will be used; (iii) Validation of the software application in several domains. The proposed methodology and the software application will be validated in two entirely different domains: movies and finance reviews. METHODOLOGY The methodology proposed in this work has been used to develop a software system to perform featured-based opinion mining in user reviews. It uses a domain ontology as knowledge base. This methodology is independent of the domain and language used. The relevant features are identified within each review. During the features identification process the system uses the semantic structure of the ontology. Each phrase that contain linguistic expressions that are directly related to ontology concepts are taken into account when calculating the overall polarity of the user opinions. The system for the classification of feelings in user opinions is based on vector calculations in the R3 space. CONCLUSIONS The informal language used by users in their opinions hinders the use of effective NLP techniques much. In most cases the existing tools do not include irregularities linguistic. The research conducted in this work has been motivated primarily by a lack of resources, methods and tools for effective processing of subjective information. Furthermore, the use of ontologies in the feature based opinion mining process produces large profits. The software system deployed achieves optimal results when there are many words with high emotional content near linguistic expression identifying a feature within a user's opinion. Since the system has a lot of information to calculate the feature polarity properly. Each domain will have a degree of subjectivity rather high when classifying identified features in the opinions. In domains where ambiguity and interpretation depending on the context are low, such as the domain of movies, the results for features sentiment analysis are promising. In other where opinions have much interpretation of context and there is a high component ambiguity results for feature based opinion mining process will be worse. This is the case in the financial domain.

Palabras clave

Web 2.0; Páginas Web-Estudios de usuarios; Tecnología de la información; Internet (Red informática)

Materias

004 - Informática; 621 - Ingeniería mecánica en general. Tecnología nuclear. Electrotecnia. Maquinaria

Área de conocimiento

Ingeniería

Documentos

TIPM.pdf

8.480Mb

 

Derechos

ADVERTENCIA. El acceso a los contenidos de esta tesis doctoral y su utilización debe respetar los derechos de la persona autora. Puede ser utilizada para consulta o estudio personal, así como en actividades o materiales de investigación y docencia en los términos establecidos en el art. 32 del Texto Refundido de la Ley de Propiedad Intelectual (RDL 1/1996). Para otros usos se requiere la autorización previa y expresa de la persona autora. En cualquier caso, en la utilización de sus contenidos se deberá indicar de forma clara el nombre y apellidos de la persona autora y el título de la tesis doctoral. No se autoriza su reproducción u otras formas de explotación efectuadas con fines lucrativos ni su comunicación pública desde un sitio ajeno al servicio TDR. Tampoco se autoriza la presentación de su contenido en una ventana o marco ajeno a TDR (framing). Esta reserva de derechos afecta tanto al contenido de la tesis como a sus resúmenes e índices.

Este ítem aparece en la(s) siguiente(s) colección(ones)