Workflow management applications for comparative omics

llistat de metadades

Director

Notredame, Cedric

Malhotra, Vivek

Tutor

Notredame, Cedric

Date of defense

2025-12-03

Pages

139 p.



Doctorate programs

Universitat Pompeu Fabra. Doctorat en Biomedicina

Abstract

El crecimiento explosivo de los datos biológicos exige soluciones computacionales que sean escalables, reproducibles y robustas. Los sistemas de gestión de flujos de trabajo (workflows), especialmente cuando se combinan con la contenedorización, abordan estos desafíos al automatizar, paralelizar y estandarizar análisis bioinformáticos complejos. En esta tesis exploro las aplicaciones de dichos sistemas en la ómica comparativa, con un enfoque en el desarrollo e implementación de canalizaciones (pipelines) reutilizables dentro de la comunidad nf-core. A través del estudio piloto TANGO1, que investigó la región transmembrana de la proteína TANGO1, se identificaron y abordaron varias necesidades computacionales críticas mediante soluciones personalizadas de flujos de trabajo. Estas incluyen REPORTHO y MULTIPLESEQUENCEALIGN para la recuperación y alineamiento de ortólogos, PARALOGS para el análisis filogenético de familias génicas, y STIMULUS para la selección de modelos en aprendizaje automático. En conjunto, estos proyectos ilustran cómo los gestores de flujos de trabajo potencian la investigación biológica al mejorar la reproducibilidad, la eficiencia y la integración de datos en diversas aplicaciones ómicas.


The explosive growth of biological data demands computational solutions that are scalable, reproducible, and robust. Workflow management systems, especially when combined with containerization, address these challenges by automating, parallelizing, and standardizing complex bioinformatics analyses. In this thesis I explore the applications of such systems in comparative omics, with a focus on the development and implementation of reusable pipelines within the nf-core community. Through the TANGO1 pilot study, which investigated the transmembrane region of the TANGO1 protein, several critical computational needs were identified and addressed via custom workflow solutions. These include REPORTHO and MULTIPLESEQUENCEALIGN for ortholog retrieval and alignment, PARALOGS for phylogenetic analysis of gene families, and STIMULUS for model selection in machine learning. Together, these projects illustrate how workflow managers empower biological research by enhancing reproducibility, efficiency, and data integration across diverse omics applications.

Subjects

575 - General genetics. General cytogenetics. Immunogenetics. Evolution. Phylogeny

Recommended citation
This citation was generated automatically.

Documents

Llistat documents

thesis_draft.pdf

11.28Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)