BeFree : a text mining system for the extraction of biomedical information from literature

Author

Bravo Serrano, Àlex

Director

Furlong, Laura I.

Date of defense

2016-11-28

Pages

220 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Ciències Experimentals i de la Salut

Doctorate programs

Programa de doctorat en Biomedicina

Abstract

Current biomedical research needs to leverage the large amount of information reported in scientific publications. Automated text processing, commonly known as text mining, has become an indispensable tool to identify, extract, organize and analyze the relevant biomedical information from the literature. This thesis presents the BeFree system, a text mining tool for the extraction of biomedical information to support research in the genetic basis of disease and drug toxicity. BeFree can identify entities such as genes and diseases from a vast repository of biomedical text sources. Furthermore, by exploiting shallow and deep syntactic information of text, BeFree detects relationships between genes, diseases and drugs with a performance comparable to the state-of-the-art. As a result, BeFree has been used in various applications in the biomedical field, with the aim to provide structured biomedical information for the development of knowledge and corpora resources. Furthermore, these resources are available to the scientific community for the development of novel text mining tools


Avui dia, la recerca biomèdica ha d'aprofitar i explotar la gran quantitat d'informació inclosa en publicacions científiques. El processament automàtic de text, habitualment conegut com mineria de text o text mining, és una eina essencial per tal d'identificar, extreure, organitzar i analitzar la informació biomèdica més rellevant de la literatura. Aquesta tesi presenta el sistema BeFree, una eina de text mining per l’extracció d’informació biomèdica per donar suport a la recerca de les bases genètiques de les malalties i la toxicitat de fàrmacs. BeFree pot identificar gens i malalties des d’un gran repositori de text biomèdic. D’altra banda, mitjançant informació lingüística continguda al text, BeFree pot detectar relacions entre gens, malalties i fàrmacs amb uns resultats comparables a l’estat de l’art. Com a resultat, BeFree ha sigut utilitzat en diverses aplicacions del camp biomèdic, amb l’objectiu d’oferir informació biomèdica estructurada pel desenvolupament de recursos com base de dades i corpora. A més, aquests recursos estan disponibles per la comunitat científica pel desenvolupament de noves eines de text mining.

Keywords

Text mining; Natural language processing; Named entity recognition; Relation extraction; Information extraction; Mineria de text; Processament de llenguatge natural; Reconeixement d'entitats; Extracció de relacions; Extracció d'informació

Subjects

573 - General and theoretical biology

Documents

tabs.pdf

3.112Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)