Extracción semántica de información basada en evolución de ontologías

Author

Rodríguez García, Miguel Ángel

Director

Valencia García, Rafael

García Sánchez, Francisco

Date of defense

2014-10-27

Pages

327 p.



Department/Institute

Universidad de Murcia. Departamento de Informática y Sistemas

Abstract

En la actualidad, a pesar de la relevancia de las anotaciones dentro de la Web Semántica, éste es aún un campo sin estandarizar. Varios enfoques se han desarrollado a lo largo de los últimos años pero, debido a las carencias que algunos de estos enfoques presentan, aún no existe ninguna metodología estándar. La motivación que ha servido de guía en esta tesis doctoral ha sido, por tanto, proponer, en el ámbito de la Web Semántica, una nueva metodología de anotación semántica basada en ontologías que cubra todo el ciclo de vida de las anotaciones así como las posibles actualizaciones de los recursos. Esta metodología está constituida por una serie de fases entre la que se pueden destacar las siguientes: representación y anotación semántica, extracción de términos, indexación semántica y evolución de ontologías. Con objeto de analizar el rendimiento de la metodología desarrollada, se diseñó una estrategia de evaluación del sistema de anotación semántico basado en las métricas de “precisión”, “exhaustividad” y “medida-F”, métricas todas ellas extensamente empleadas en el ámbito científico para la validación de este tipo de sistemas. El experimento consistió en la selección de dos dominios de aplicación y en la utilización de estas métricas sobre algunos de los módulos que componían el sistema propuesto. Los índices obtenidos tras los experimentos en los diferentes módulos fueron muy prometedores y llevaron a conclusiones muy favorables acerca del rendimiento de la metodología y su aplicabilidad en diversos contextos. El desarrollo de esta metodología de anotación dio lugar a la concepción de varias aplicaciones que aprovechan su potencial. Entre las aplicaciones más destacables es posible resaltar la utilización de la metodología de anotación semántica para el cálculo de la similitud entre entidades. La aplicación de esta metodología en el cálculo de la similitud supuso la definición de un método capaz de realizar comparaciones entre cualquier par de entidades almacenadas en un sistema de información. Este método lleva a cabo la comparación entre entidades al nivel de granularidad más fino, esto es, los atributos que caracterizan cada una de las entidades comparadas. Por lo tanto, los atributos de las entidades constituyen la principal fuente de información para realizar tales comparativas. Al igual que ocurría en el caso de la metodología de anotación semántica, la metodología de cálculo de similitud semántica también se encuentra dividida en una serie de fases, a saber, representación y anotación semántica, indexación semántica, cálculo de similitud y motor de inferencia semántica. La evaluación de esta aplicación de la metodología de anotación semántica para el cálculo de la similitud entre entidades se llevó a cabo a través de la aplicación de métricas que proporcionan índices cuantitativos relacionados con la “precisión”, la “exhaustividad” y la “medida-F”. Los resultados obtenidos fueron muy favorables, proporcionando conclusiones muy prometedoras acerca de la aplicación de la metodología de anotación semántica en el cálculo de la similitud entre entidades.


The semantic annotation and retrieval of text documents and Web resources is a challenging task and it addresses the general issue of making computers aware of the content of informational resources so as they can be of better assistance for users. In this thesis, a semantic platform for text resources annotation and retrieval from their source documents has been proposed. The system presented here automatically annotates natural language documents, which may be available in a number of formats such as XML, HTML or PDF. The proposed platform has additionally been implemented, considering multi-ontology environments (with OWL 2 ontologies) in order to be able to cope with several domains. It also supports the evolution of the source documents, thus maintaining the coherence between the natural language descriptions and the annotations, which are stored using a semantic Web-based model. A new methodology is presented that comprises three commonly used but enhanced stages in the scope of semantic search processes: information filtering, information retrieval, indexing and relevancy rankings. The proposed platform has been evaluated in two domains, namely, ICT-related cloud computing and R&D management, with very promising results. Using the semantic annotation methodology a new application of similarity calculation has been proposed. The platform keeps track of the semantic-based description of R&D projects, proposals, ideas and worker resumes. Natural language processing tools are used to facilitate the generation of such semantic profiles, annotations and indexes from natural language texts. Once the system has been fed up with the semantic content, the semantic inference engine module leverages such formal content to perform general queries from the available information, producing precise and accurate results that can help managers in the decision-making process.

Keywords

Web semántica; Sistemas de información; Lenguaje de programación

Subjects

00 - Prolegomena. Fundamentals of knowledge and culture. Propaedeutics

Knowledge Area

Ingeniería

Documents

TMARG.pdf

6.809Mb

 

Rights

ADVERTENCIA. El acceso a los contenidos de esta tesis doctoral y su utilización debe respetar los derechos de la persona autora. Puede ser utilizada para consulta o estudio personal, así como en actividades o materiales de investigación y docencia en los términos establecidos en el art. 32 del Texto Refundido de la Ley de Propiedad Intelectual (RDL 1/1996). Para otros usos se requiere la autorización previa y expresa de la persona autora. En cualquier caso, en la utilización de sus contenidos se deberá indicar de forma clara el nombre y apellidos de la persona autora y el título de la tesis doctoral. No se autoriza su reproducción u otras formas de explotación efectuadas con fines lucrativos ni su comunicación pública desde un sitio ajeno al servicio TDR. Tampoco se autoriza la presentación de su contenido en una ventana o marco ajeno a TDR (framing). Esta reserva de derechos afecta tanto al contenido de la tesis como a sus resúmenes e índices.

This item appears in the following Collection(s)