Extracción semántica de información basada en evolución de ontologías

Rodríguez García, Miguel Ángel

Extracción semántica de información basada en evolución de ontologías

Author

Rodríguez García, Miguel Ángel

Director

Valencia García, Rafael

García Sánchez, Francisco

Date of defense

2014-10-27

Pages

327 p.

Department/Institute

Universidad de Murcia. Departamento de Informática y Sistemas

Abstract

En la actualidad, a pesar de la relevancia de las anotaciones dentro de la Web Semántica, éste es aún un campo sin estandarizar. Varios enfoques se han desarrollado a lo largo de los últimos años pero, debido a las carencias que algunos de estos enfoques presentan, aún no existe ninguna metodología estándar. La motivación que ha servido de guía en esta tesis doctoral ha sido, por tanto, proponer, en el ámbito de la Web Semántica, una nueva metodología de anotación semántica basada en ontologías que cubra todo el ciclo de vida de las anotaciones así como las posibles actualizaciones de los recursos. Esta metodología está constituida por una serie de fases entre la que se pueden destacar las siguientes: representación y anotación semántica, extracción de términos, indexación semántica y evolución de ontologías. Con objeto de analizar el rendimiento de la metodología desarrollada, se diseñó una estrategia de evaluación del sistema de anotación semántico basado en las métricas de “precisión”, “exhaustividad” y “medida-F”, métricas todas ellas extensamente empleadas en el ámbito científico para la validación de este tipo de sistemas. El experimento consistió en la selección de dos dominios de aplicación y en la utilización de estas métricas sobre algunos de los módulos que componían el sistema propuesto. Los índices obtenidos tras los experimentos en los diferentes módulos fueron muy prometedores y llevaron a conclusiones muy favorables acerca del rendimiento de la metodología y su aplicabilidad en diversos contextos. El desarrollo de esta metodología de anotación dio lugar a la concepción de varias aplicaciones que aprovechan su potencial. Entre las aplicaciones más destacables es posible resaltar la utilización de la metodología de anotación semántica para el cálculo de la similitud entre entidades. La aplicación de esta metodología en el cálculo de la similitud supuso la definición de un método capaz de realizar comparaciones entre cualquier par de entidades almacenadas en un sistema de información. Este método lleva a cabo la comparación entre entidades al nivel de granularidad más fino, esto es, los atributos que caracterizan cada una de las entidades comparadas. Por lo tanto, los atributos de las entidades constituyen la principal fuente de información para realizar tales comparativas. Al igual que ocurría en el caso de la metodología de anotación semántica, la metodología de cálculo de similitud semántica también se encuentra dividida en una serie de fases, a saber, representación y anotación semántica, indexación semántica, cálculo de similitud y motor de inferencia semántica. La evaluación de esta aplicación de la metodología de anotación semántica para el cálculo de la similitud entre entidades se llevó a cabo a través de la aplicación de métricas que proporcionan índices cuantitativos relacionados con la “precisión”, la “exhaustividad” y la “medida-F”. Los resultados obtenidos fueron muy favorables, proporcionando conclusiones muy prometedoras acerca de la aplicación de la metodología de anotación semántica en el cálculo de la similitud entre entidades.

The semantic annotation and retrieval of text documents and Web resources is a challenging task and it addresses the general issue of making computers aware of the content of informational resources so as they can be of better assistance for users. In this thesis, a semantic platform for text resources annotation and retrieval from their source documents has been proposed. The system presented here automatically annotates natural language documents, which may be available in a number of formats such as XML, HTML or PDF. The proposed platform has additionally been implemented, considering multi-ontology environments (with OWL 2 ontologies) in order to be able to cope with several domains. It also supports the evolution of the source documents, thus maintaining the coherence between the natural language descriptions and the annotations, which are stored using a semantic Web-based model. A new methodology is presented that comprises three commonly used but enhanced stages in the scope of semantic search processes: information filtering, information retrieval, indexing and relevancy rankings. The proposed platform has been evaluated in two domains, namely, ICT-related cloud computing and R&D management, with very promising results. Using the semantic annotation methodology a new application of similarity calculation has been proposed. The platform keeps track of the semantic-based description of R&D projects, proposals, ideas and worker resumes. Natural language processing tools are used to facilitate the generation of such semantic profiles, annotations and indexes from natural language texts. Once the system has been fed up with the semantic content, the semantic inference engine module leverages such formal content to perform general queries from the available information, producing precise and accurate results that can help managers in the decision-making process.

Keywords

Web semántica; Sistemas de información; Lenguaje de programación

Subjects

00 - Prolegomena. Fundamentals of knowledge and culture. Propaedeutics

Knowledge Area

Ingeniería

Documents

TMARG.pdf

6.809Mb

Export

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Rights

ADVERTENCIA. El acceso a los contenidos de esta tesis doctoral y su utilización debe respetar los derechos de la persona autora. Puede ser utilizada para consulta o estudio personal, así como en actividades o materiales de investigación y docencia en los términos establecidos en el art. 32 del Texto Refundido de la Ley de Propiedad Intelectual (RDL 1/1996). Para otros usos se requiere la autorización previa y expresa de la persona autora. En cualquier caso, en la utilización de sus contenidos se deberá indicar de forma clara el nombre y apellidos de la persona autora y el título de la tesis doctoral. No se autoriza su reproducción u otras formas de explotación efectuadas con fines lucrativos ni su comunicación pública desde un sitio ajeno al servicio TDR. Tampoco se autoriza la presentación de su contenido en una ventana o marco ajeno a TDR (framing). Esta reserva de derechos afecta tanto al contenido de la tesis como a sus resúmenes e índices.

Extracción semántica de información basada en evolución de ontologías

Author

Director

Date of defense

Pages

Share

Department/Institute

Abstract

Keywords

Subjects

Knowledge Area

Documents

Export

Rights

This item appears in the following Collection(s)