Biotea-Biolinks: A semantic infrastructure for exploring and analyzing scientific publications

Author

García Castro, Leyla Jael

Director

Berlanga Llavori, Rafael

García, Alexander

Date of defense

2017-06-23

Pages

118 p.



Department/Institute

Universitat Jaume I. Departament de Llenguatges i Sistemes Informàtics

Abstract

Background Despite the dissemination of scientific publications, most of their information remains locked up in discrete documents, not always interconnected or machine-readable. This, together with the continuous growth of scientific literature, makes difficult simple tasks such as categorizing and finding similar documents. Results Biotea provides both a semantic model and workflow to represent metadata, references and contents from publications, adding on top of it an enriched level where biomedical expressions are semantically annotated (i.e., identified, extracted and associated to ontological concepts). We have applied our model to the full-text, open-access subset of PubMed Central. We take advantage from such a semantic infrastructure by applying Biolinks principles. Biolinks proposes a reclassification of the Unified Medical Language System semantic groups. Such reclassification is later used to semantically characterize and compare publications. Conclusions Biotea and Biolinks embed publications in the Linked Open Data cloud facilitating interoperability and querability, and contributing to enable literature-based knowledge discovery.


Motivación A pesar de la diseminación de publicaciones científicas, la mayor parte de la información no está necesariamente interconectada ni es procesable por máquinas. Esto, junto con el continuo crecimiento de la producción científica, dificulta tareas como categorizar y comparar documentos científicos. Resultados Biotea ofrece un modelo semántico junto con los procedimientos para representar metadatos, referencias y contenido, enriqueciéndolos con anotaciones semánticas en el área de la Biomedicina (es decir identificación y extracción de expresiones asociadas con conceptos ontológicos). Biotea se utilizó para modelar artículos completos del subconjunto abierto de PubMed Central. Para aprovechar esta infraestructura semántica desarrollamos Biolinks. Biolinks propone una reclasificación de los grupos semánticos del Unified Medical Language System utilizada para caracterizar y comparar publicaciones desde un punto de vista semántico. Conclusiones Biotea y Biolinks posicionan las publicaciones en la nube del Linked Open Data, facilitando interoperabilidad y consultas, contribuyendo además al descubrimiento de conocimiento basado en literatura.

Keywords

Semantic web; Linked open data; Scientific publications; Semantic similarity; Semantic categorization; Data enrichment

Subjects

004 - Computer science and technology. Computing. Data processing; 02 - Librarianship

Knowledge Area

Tecnologies de la Informació i les Comunicacions (TIC)

Documents

2017_Tesis_ Garcia Castro_Leyla Jael.pdf

5.525Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)