Development of computational and experimental tools for the identification of small proteins in bacterial genomes

Author

Miravet Verde, Samuel

Director

Serrano Pubull, Luis

Lluch-Senar, Maria 1982-

Date of defense

2021-05-14

Pages

210 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Ciències Experimentals i de la Salut

Doctorate programs

Programa de doctorat en Biomedicina

Abstract

Small proteins (SEPs; <100aa) are involved in essential processes such as cell homeostasis, signalling, or metabolism. However, they have been overlooked because of computational and experimental difficulties that prevent their annotation and rely their identification on serendipity. In this thesis, we present a series of tools to aid the characterization of bacterial SEPs. i) RanSEPs, the first bioinformatics tool to annotate SEPs, based on species-specific sequence features and random forest models. Running RanSEPs in 109 bacterial genomes reveals that SEPs could represent up to 20% of some species’ proteomes. ii) FASTQINS and ANUBIS, two bioinformatics tools for the processing and analysis of transposon sequencing libraries to increase the accuracy in genome essentiality studies, including small genomic regions. iii) ProTInSeq, a novel transposon sequencing approach using mutated vectors to study bacterial proteomes, including SEPs, applied in Mycoplasma pneumoniae. Altogether, these tools aid the discovery of uncharacterized SEPs, including quorum sensing and antimicrobial SEPs, which functions could be exploited for the treatment of microbial diseases.


Les proteïnes petites de menys de 100 aminoàcids (SEPs) estan involucrades en processos essencials per a la cèl·lula com homeòstasis, senyalització o metabolisme. Nogensmenys han passat desapercebudes a causa de les limitacions computacionals i experimentals que impedeixen la seva identificació de SEPs son descobertes per serendipitat. En aquesta tesi presentem una sèrie d'eines per la caracterització de SEPs en bacteris. i) RanSEPs, la primera aplicació bioinformàtica destinada a l'anotació de SEPs, basada en propietats específiques de les seqüències de cada espècie y models de boscos aleatoris. A l'utilitzar RanSEPs en 109 espècies de bacteris observem que fins a un 20% de les proteïnes contingudes en un genoma podrien ser SEPs. ii) FASTQINS i ANUBIS, dues eines bioinformàtiques, per al processament i anàlisi de dades de seqüenciació d'elements genètics transposables per millorar la qualitat dels estudis d'essencialitat en genomes incloent petites regions genòmiques. iii) ProTInSeq, un nou protocol de seqüenciació d'elements genètics transposables utilitzant vectors mutats per estudiar proteomes en bacteris, inclòs SEPs, aplicat a Mycoplasma pneumoniae. En conjunt, aquestes eines assisteixen al descobriment de SEPs sense caracteritzar, incloent-hi SEPs de percepció de quòrum o antimicrobians, funcions les qual poden ser aplicades en el tractament de malalties microbianes


Las proteínas pequeñas de menos de 100 aminoácidos (SEPs) están involucradas en procesos esenciales para la célula como homeostasis, señalización o metabolismo. Sin embargo, han pasado desapercibidas debido a limitaciones computacionales y experimentales, haciendo que su identificación se base en serendipias. En esta tesis presentamos una serie de herramientas para la caracterización de SEPs en bacterias. i) RanSEPs, la primera aplicación bioinformática destinada a la anotación de SEPs, se basa en propiedades específicas de las secuencias de cada especie y modelos de bosques aleatorios. Al utilizar RanSEPs en 109 especies bacterianas se observa que hasta un 20% de las proteínas contenidas en un genoma podrían ser SEPs. ii) FASTQINS y ANUBIS, dos herramientas bioinformáticas para el procesamiento y análisis de datos de secuenciación de elementos genéticos transponibles para mejorar la calidad de los estudios de esencialidad en genomas, incluyendo pequeñas regiones genómicas. iii) ProTInSeq, un nuevo protocolo de secuenciación de elementos genéticos transponibles usando vectores mutados para estudiar proteínas en bacterias, incluidas SEPs, aplicado en Mycoplasma pneumoniae. En conjunto, estas herramientas asisten el descubrimiento de SEPs sin caracterizar, incluyendo SEPs de percepción de quórum o antimicrobianas, cuyas funciones podrían ser aplicadas en el tratamiento de enfermedades microbianas.

Keywords

Small proteins; Genome annotattion; Transposon sequencing; Essentiality; Proteomes; Proteïnes petites; Anotació de genomes; Seqüenciació d'elements genètics transposables; Essencialitat; Proteínas pequeñas; Secuenciación de elementos genéticos transponibles; Anotación de genomas; Esencialidad; Proteomas

Subjects

575 - General genetics. General cytogenetics

Documents

tsmv1.pdf

9.403Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de
les condicions d'ús establertes per la següent llicència Creative Commons:
http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)