Workflow management applications for comparative omics
llistat de metadades
Autor/a
Director/a
Notredame, Cedric
Malhotra, Vivek
Tutor/a
Notredame, Cedric
Fecha de defensa
2025-12-03
Páginas
139 p.
Programa de doctorado
Universitat Pompeu Fabra. Doctorat en Biomedicina
Resumen
El crecimiento explosivo de los datos biológicos exige soluciones computacionales que sean escalables, reproducibles y robustas. Los sistemas de gestión de flujos de trabajo (workflows), especialmente cuando se combinan con la contenedorización, abordan estos desafíos al automatizar, paralelizar y estandarizar análisis bioinformáticos complejos. En esta tesis exploro las aplicaciones de dichos sistemas en la ómica comparativa, con un enfoque en el desarrollo e implementación de canalizaciones (pipelines) reutilizables dentro de la comunidad nf-core. A través del estudio piloto TANGO1, que investigó la región transmembrana de la proteína TANGO1, se identificaron y abordaron varias necesidades computacionales críticas mediante soluciones personalizadas de flujos de trabajo. Estas incluyen REPORTHO y MULTIPLESEQUENCEALIGN para la recuperación y alineamiento de ortólogos, PARALOGS para el análisis filogenético de familias génicas, y STIMULUS para la selección de modelos en aprendizaje automático. En conjunto, estos proyectos ilustran cómo los gestores de flujos de trabajo potencian la investigación biológica al mejorar la reproducibilidad, la eficiencia y la integración de datos en diversas aplicaciones ómicas.
The explosive growth of biological data demands computational solutions that are scalable, reproducible, and robust. Workflow management systems, especially when combined with containerization, address these challenges by automating, parallelizing, and standardizing complex bioinformatics analyses. In this thesis I explore the applications of such systems in comparative omics, with a focus on the development and implementation of reusable pipelines within the nf-core community. Through the TANGO1 pilot study, which investigated the transmembrane region of the TANGO1 protein, several critical computational needs were identified and addressed via custom workflow solutions. These include REPORTHO and MULTIPLESEQUENCEALIGN for ortholog retrieval and alignment, PARALOGS for phylogenetic analysis of gene families, and STIMULUS for model selection in machine learning. Together, these projects illustrate how workflow managers empower biological research by enhancing reproducibility, efficiency, and data integration across diverse omics applications.
Palabras clave
Bioinformatics; Bioinformática; Comparative Genomics; Genómica Comparativa; Workflow Management; Gestión de Flujos de Trabajo; Reproducibility; Reproducibilidad; Computational Biology; Biología Computacional
Materias
575 - Genética general. Citogenética general. Inmunogenética. Evolución. Filogenia



