Development of computational approaches for high precision and accuracy protein quantification.

Elhamraoui, Zahra

Development of computational approaches for high precision and accuracy protein quantification.

dc.contributor.author

Elhamraoui, Zahra

dc.date.accessioned

2025-10-08T14:43:46Z

dc.date.available

2025-10-08T14:43:46Z

dc.date.issued

2025-06-27

dc.identifier.uri

http://hdl.handle.net/10803/695424

dc.description

dc.description.abstract

Proteins are essential components of biological systems, driving critical processes such as enzymatic catalysis, structural integrity, and cellular signaling. Advances in mass spectrometry (MS)-based proteomics have revolutionized the study of protein dynamics, enabling unprecedented levels of detail in protein identification and quantification. This thesis develops computational approaches to enhance protein quantification, addressing three challenges in proteomics: i) the unambiguous identification of peptides and proteins of interest in the proteome, ii) the characterization and prediction of peptide stability for enhanced targeted proteome quantification, and iii) the development of analytical methods that extend and apply precise quantification to the whole proteome. A theoretical assessment was conducted to characterize the non-accessible portions of the human proteome and immunopeptidome caused by indistinguishable peptides, i.e., peptides with close retention time and nearly identical fragmentation patterns. Using state-of-the-art retention time and spectral prediction models, peptides with overlapping analytical features that defy unequivocal identification were identified. Insights were provided into the limitations of current high-resolution MS technologies when evaluating complex proteomes, such as when accounting for all natural amino acid variants in the human proteome. Additionally, a Python-based computational tool was developed for peptide indistinguishability assessment in proteomes of interest, enabling prioritization of the detection of unambiguous analytes. Then we investigated peptide stability, over 124,000 tryptic peptides from the human proteome were systematically evaluated under autosampler conditions. Peptides were clustered using unsupervised learning based on their longitudinal behavior over 21 days, distinguishing stable from unstable peptides. Building on these findings, a deep learning model was developed to predict peptide stability based on the amino acid sequences of tryptic peptides. Finally, the TMTCal quantification strategy was established to assess the linear behavior of tryptic peptides across the whole proteome, extending the advantages of multipoint internal calibration to whole-proteome quantification. This approach relies on the creation of tandem mass tag (TMT)- based multipoint internal calibration curves, enabling precise and reproducible quantification across the proteome in a single experiment. Applied to ovarian cancer cell lines treated with cisplatin, TMTCal confirmed the quantitative linearity of the vast majority of peptides in the proteome. This methodology holds great potential for various applications in both basic research and clinical settings, including low-input and single-cell proteomics. Together, the studies presented in this thesis address critical challenges in modern proteomics, enhancing understanding of proteome accessibility, stability, and quantification. The tools and methodologies developed contribute to extending the reliability and scope of MS-based proteomics, with broad implications for biomarker discovery, translational research, and personalized medicine.

dc.description.abstract

Las proteínas son componentes esenciales de los sistemas biológicos, involucradas en procesos críticos como la actividad enzimática, la integridad estructural y la señalización celular. Los avances en proteómica basada en espectrometría de masas (MS) han revolucionado el estudio de la dinámica de las proteínas, permitiendo un nivel de detalle sin precedentes en la identificación y cuantificación proteica. Esta tesis desarrolla herramientas computacionales para mejorar la cuantificación de proteínas, abordando tres desafíos clave en proteómica: i) la identificación sin ambigüedades de los péptidos y proteínas de interés en el proteoma, ii) la caracterización y predicción de la estabilidad de los péptidos para mejorar la cuantificación en métodos de proteómica dirigida, y iii) el desarrollo de métodos analíticos de cuantificación precisa aplicables a proteomas completos. En primer lugar, se realizó una evaluación teórica para caracterizar las regiones no accesibles del proteoma humano y del inmunopeptidoma causadas por la presencia de péptidos indistinguibles, es decir, aquellos con tiempos de retención similares y patrones de fragmentación casi idénticos. Mediante el uso de modelos de predicción de última generación de tiempos de retención y espectros de fragmentación, se identificaron péptidos con características analíticas superpuestas que dificultan una identificación inequívoca, determinando así las partes del proteoma que no pueden ser identificadas y, por lo tanto, permanecen inaccesibles. Además, se describieron las limitaciones de las tecnologías actuales de MS de alta resolución para resolver proteomas complejos, incluyendo el impacto de las variantes naturales de aminoácidos. Como resultado de este análisis, se desarrolló una herramienta computacional basada en Python para evaluar la indistinguibilidad de los péptidos en proteomas de interés, permitiendo la priorización de la detección de analitos no ambiguos. Posteriormente, se evaluó sistemáticamente la estabilidad de más de 124,000 péptidos trípticos del proteoma humano bajo condiciones ambientales en muestreadores automáticos. Mediante el uso de aprendizaje no supervisado, los péptidos fueron agrupados según su comportamiento longitudinal durante un período de 21 días. A partir de estos resultados, se desarrolló un modelo de aprendizaje profundo capaz de predecir la estabilidad de los péptidos trípticos directamente a partir de sus secuencias de aminoácidos. Por último, se implementó la estrategia de cuantificación TMTCal para evaluar el comportamiento lineal de los péptidos trípticos en el proteoma y extender las ventajas de la calibración interna multipunto a la cuantificación proteómica integral. Este enfoque se basa en la generación de curvas de calibración interna multipunto mediante el uso de etiquetas en tándem TMT, lo que permite una cuantificación precisa y reproducible en todo el proteoma en un solo experimento. Aplicada a líneas celulares de cáncer de ovario tratadas con cisplatino, la estrategia TMTCal confirmó la linealidad en la cuantificación de la mayoría de los péptidos del proteoma humano. Esta metodología muestra un gran potencial para diversas aplicaciones en investigación básica y entornos clínicos, incluyendo proteómica de muestras limitadas y análisis a nivel de células individuales. En conjunto, los estudios presentados en esta tesis abordan desafíos fundamentales en la proteómica actual, mejorando el conocimiento sobre la accesibilidad, estabilidad y cuantificación del proteoma. Las herramientas y metodologías desarrolladas amplían la fiabilidad y el alcance de la proteómica basada en espectrometría de masas, con implicaciones significativas para el descubrimiento de biomarcadores, la investigación traslacional y la medicina personalizada.

dc.description.abstract

Les proteïnes són components essencials dels sistemes biològics i participen en processos crítics com la catàlisi enzimàtica, la integritat estructural i la senyalització cel·lular. Els avenços en proteòmica basada en espectrometria de masses han revolucionat l'estudi de la dinàmica de les proteïnes, permetent nivells de detall sense precedents en la seva identificació i quantificació. Aquesta tesi desenvolupa eines i recursos computacionals per millorar la quantificació de proteïnes, abordant tres desafiaments actuals en la proteòmica: i) la identificació sense ambigüitats dels pèptids i proteïnes d'interès en el proteoma, ii) la caracterització i predicció de l'estabilitat dels pèptids per millorar la quantificació en mètodes de proteòmica dirigida, i iii) el desenvolupament de mètodes analítics de quantificació precisa aplicables a proteomes complets. En primer lloc, es va realitzar una avaluació teòrica per caracteritzar les porcions no accessibles del proteoma humà i de l'immunopeptidoma causades per pèptids indistinguibles, és a dir, aquells amb temps de retenció similars i patrons de fragmentació gairebé idèntics. Mitjançant l’ús de models de predicció d’última generació de temps de retenció i espectres de fragmentació, es van identificar pèptids amb característiques analítiques superposades que dificulten una identificació inequívoca, delimitant així les regions del proteoma que no poden ser identificades i, per tant, romanen inaccessibles. A més, es van descriure les limitacions de les tecnologies actuals de MS d'alta resolució per a l'anàlisi de proteomes complexos, avaluant l'impacte de les variants naturals d'aminoàcids en la fracció no accessible del proteoma humà. Com a resultat d'aquest estudi, es va desenvolupar una eina computacional basada en Python per avaluar la indistinguibilitat de pèptids en qualsevol proteoma d’interès, facilitant així la priorització de la detecció d’analits no ambigus. En segon lloc, es va avaluar sistemàticament l'estabilitat de més de 124.000 pèptids triptícics del proteoma humà en condicions ambientals dels mostrejadors automàtics. Els pèptids es van agrupar mitjançant aprenentatge no supervisat en funció del seu comportament longitudinal durant un període de 21 dies. A partir d’aquests resultats, es va desenvolupar un model d'aprenentatge profund per predir l'estabilitat dels pèptids triptícics directament a partir de les seves seqüències d'aminoàcids. Finalment, es va establir l'estratègia de quantificació TMTCal per avaluar el comportament lineal dels pèptids triptícics en el proteoma i estendre els avantatges de la calibració interna multipunt a la quantificació proteòmica integral. Aquest enfocament es basa en la generació de corbes de calibració interna multipunt mitjançant etiquetes en tàndem TMT, fet que permet una quantificació precisa i reproductible en tot el proteoma en un sol experiment. Aplicada a línies cel·lulars de càncer d'ovari tractades amb cisplatí, l'estratègia TMTCal va confirmar la linealitat en la quantificació de la majoria dels pèptids del proteoma humà. Aquesta metodologia presenta un gran potencial per a diverses aplicacions tant en investigació bàsica com en entorns clínics, incloent-hi la proteòmica de mostres limitades i l’anàlisi a nivell de cèl·lules individuals. En conjunt, els estudis presentats en aquesta tesi aborden desafiaments crítics en la proteòmica actual, millorant la comprensió de l’accessibilitat, l’estabilitat i la quantificació del proteoma. Les eines i metodologies desenvolupades amplien la fiabilitat i l’abast de la proteòmica basada en espectrometria de masses, amb implicacions significatives per al descobriment de biomarcadors, la recerca translacional i la medicina personalitzada.

dc.format.extent

104 p.

dc.language.iso

eng

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Proteòmica quantitativa

dc.subject

Quantitative proteomics

dc.subject

Proteómica cuantitativa

dc.title

Development of computational approaches for high precision and accuracy protein quantification.

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.date.updated

2025-10-08T14:43:45Z

dc.subject.udc

dc.contributor.director

Sabidó Aguadé, Eduard

dc.contributor.tutor

Sabidó Aguadé, Eduard

dc.embargo.terms

cap

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.description.degree

Universitat Pompeu Fabra. Doctorat en Biomedicina

Documentos

2025_phd_thesis_zahra_elhamraoui.pdf

20.94Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Programa de Doctorat en Biomedicina [1425]

Àrea de contingut