Development of computational approaches for high precision and accuracy protein quantification.
dc.contributor.author
Elhamraoui, Zahra
dc.date.accessioned
2025-10-08T14:43:46Z
dc.date.available
2025-10-08T14:43:46Z
dc.date.issued
2025-06-27
dc.identifier.uri
http://hdl.handle.net/10803/695424
dc.description
dc.description
dc.description.abstract
Proteins are essential components of biological systems, driving critical processes such as
enzymatic catalysis, structural integrity, and cellular signaling. Advances in mass spectrometry
(MS)-based proteomics have revolutionized the study of protein dynamics, enabling
unprecedented levels of detail in protein identification and quantification. This thesis develops
computational approaches to enhance protein quantification, addressing three challenges in
proteomics: i) the unambiguous identification of peptides and proteins of interest in the proteome,
ii) the characterization and prediction of peptide stability for enhanced targeted proteome
quantification, and iii) the development of analytical methods that extend and apply precise
quantification to the whole proteome.
A theoretical assessment was conducted to characterize the non-accessible portions of the human
proteome and immunopeptidome caused by indistinguishable peptides, i.e., peptides with close
retention time and nearly identical fragmentation patterns. Using state-of-the-art retention time and
spectral prediction models, peptides with overlapping analytical features that defy unequivocal
identification were identified. Insights were provided into the limitations of current high-resolution
MS technologies when evaluating complex proteomes, such as when accounting for all natural
amino acid variants in the human proteome. Additionally, a Python-based computational tool was
developed for peptide indistinguishability assessment in proteomes of interest, enabling
prioritization of the detection of unambiguous analytes.
Then we investigated peptide stability, over 124,000 tryptic peptides from the human proteome
were systematically evaluated under autosampler conditions. Peptides were clustered using
unsupervised learning based on their longitudinal behavior over 21 days, distinguishing stable
from unstable peptides. Building on these findings, a deep learning model was developed to
predict peptide stability based on the amino acid sequences of tryptic peptides.
Finally, the TMTCal quantification strategy was established to assess the linear behavior of tryptic
peptides across the whole proteome, extending the advantages of multipoint internal calibration to
whole-proteome quantification. This approach relies on the creation of tandem mass tag (TMT)-
based multipoint internal calibration curves, enabling precise and reproducible quantification
across the proteome in a single experiment. Applied to ovarian cancer cell lines treated with
cisplatin, TMTCal confirmed the quantitative linearity of the vast majority of peptides in the
proteome. This methodology holds great potential for various applications in both basic research
and clinical settings, including low-input and single-cell proteomics.
Together, the studies presented in this thesis address critical challenges in modern proteomics,
enhancing understanding of proteome accessibility, stability, and quantification. The tools and
methodologies developed contribute to extending the reliability and scope of MS-based
proteomics, with broad implications for biomarker discovery, translational research, and
personalized medicine.
dc.description.abstract
Las proteínas son componentes esenciales de los sistemas biológicos, involucradas en procesos
críticos como la actividad enzimática, la integridad estructural y la señalización celular. Los
avances en proteómica basada en espectrometría de masas (MS) han revolucionado el estudio
de la dinámica de las proteínas, permitiendo un nivel de detalle sin precedentes en la
identificación y cuantificación proteica. Esta tesis desarrolla herramientas computacionales para
mejorar la cuantificación de proteínas, abordando tres desafíos clave en proteómica: i) la
identificación sin ambigüedades de los péptidos y proteínas de interés en el proteoma, ii) la
caracterización y predicción de la estabilidad de los péptidos para mejorar la cuantificación en
métodos de proteómica dirigida, y iii) el desarrollo de métodos analíticos de cuantificación precisa
aplicables a proteomas completos.
En primer lugar, se realizó una evaluación teórica para caracterizar las regiones no accesibles del
proteoma humano y del inmunopeptidoma causadas por la presencia de péptidos indistinguibles,
es decir, aquellos con tiempos de retención similares y patrones de fragmentación casi idénticos.
Mediante el uso de modelos de predicción de última generación de tiempos de retención y
espectros de fragmentación, se identificaron péptidos con características analíticas superpuestas
que dificultan una identificación inequívoca, determinando así las partes del proteoma que no
pueden ser identificadas y, por lo tanto, permanecen inaccesibles. Además, se describieron las
limitaciones de las tecnologías actuales de MS de alta resolución para resolver proteomas
complejos, incluyendo el impacto de las variantes naturales de aminoácidos. Como resultado de
este análisis, se desarrolló una herramienta computacional basada en Python para evaluar la
indistinguibilidad de los péptidos en proteomas de interés, permitiendo la priorización de la
detección de analitos no ambiguos.
Posteriormente, se evaluó sistemáticamente la estabilidad de más de 124,000 péptidos trípticos
del proteoma humano bajo condiciones ambientales en muestreadores automáticos. Mediante el
uso de aprendizaje no supervisado, los péptidos fueron agrupados según su comportamiento
longitudinal durante un período de 21 días. A partir de estos resultados, se desarrolló un modelo
de aprendizaje profundo capaz de predecir la estabilidad de los péptidos trípticos directamente a
partir de sus secuencias de aminoácidos.
Por último, se implementó la estrategia de cuantificación TMTCal para evaluar el comportamiento
lineal de los péptidos trípticos en el proteoma y extender las ventajas de la calibración interna
multipunto a la cuantificación proteómica integral. Este enfoque se basa en la generación de
curvas de calibración interna multipunto mediante el uso de etiquetas en tándem TMT, lo que
permite una cuantificación precisa y reproducible en todo el proteoma en un solo experimento.
Aplicada a líneas celulares de cáncer de ovario tratadas con cisplatino, la estrategia TMTCal
confirmó la linealidad en la cuantificación de la mayoría de los péptidos del proteoma humano.
Esta metodología muestra un gran potencial para diversas aplicaciones en investigación básica y
entornos clínicos, incluyendo proteómica de muestras limitadas y análisis a nivel de células
individuales.
En conjunto, los estudios presentados en esta tesis abordan desafíos fundamentales en la
proteómica actual, mejorando el conocimiento sobre la accesibilidad, estabilidad y cuantificación
del proteoma. Las herramientas y metodologías desarrolladas amplían la fiabilidad y el alcance de la proteómica basada en espectrometría de masas, con implicaciones significativas para el descubrimiento de biomarcadores, la investigación traslacional y la medicina personalizada.
dc.description.abstract
Les proteïnes són components essencials dels sistemes biològics i participen en processos crítics
com la catàlisi enzimàtica, la integritat estructural i la senyalització cel·lular. Els avenços en
proteòmica basada en espectrometria de masses han revolucionat l'estudi de la dinàmica de les
proteïnes, permetent nivells de detall sense precedents en la seva identificació i quantificació.
Aquesta tesi desenvolupa eines i recursos computacionals per millorar la quantificació de
proteïnes, abordant tres desafiaments actuals en la proteòmica: i) la identificació sense
ambigüitats dels pèptids i proteïnes d'interès en el proteoma, ii) la caracterització i predicció de
l'estabilitat dels pèptids per millorar la quantificació en mètodes de proteòmica dirigida, i iii) el
desenvolupament de mètodes analítics de quantificació precisa aplicables a proteomes complets.
En primer lloc, es va realitzar una avaluació teòrica per caracteritzar les porcions no accessibles
del proteoma humà i de l'immunopeptidoma causades per pèptids indistinguibles, és a dir, aquells
amb temps de retenció similars i patrons de fragmentació gairebé idèntics. Mitjançant l’ús de
models de predicció d’última generació de temps de retenció i espectres de fragmentació, es van
identificar pèptids amb característiques analítiques superposades que dificulten una identificació
inequívoca, delimitant així les regions del proteoma que no poden ser identificades i, per tant,
romanen inaccessibles. A més, es van descriure les limitacions de les tecnologies actuals de MS
d'alta resolució per a l'anàlisi de proteomes complexos, avaluant l'impacte de les variants naturals
d'aminoàcids en la fracció no accessible del proteoma humà. Com a resultat d'aquest estudi, es
va desenvolupar una eina computacional basada en Python per avaluar la indistinguibilitat de
pèptids en qualsevol proteoma d’interès, facilitant així la priorització de la detecció d’analits no
ambigus.
En segon lloc, es va avaluar sistemàticament l'estabilitat de més de 124.000 pèptids triptícics del
proteoma humà en condicions ambientals dels mostrejadors automàtics. Els pèptids es van
agrupar mitjançant aprenentatge no supervisat en funció del seu comportament longitudinal
durant un període de 21 dies. A partir d’aquests resultats, es va desenvolupar un model
d'aprenentatge profund per predir l'estabilitat dels pèptids triptícics directament a partir de les
seves seqüències d'aminoàcids.
Finalment, es va establir l'estratègia de quantificació TMTCal per avaluar el comportament lineal
dels pèptids triptícics en el proteoma i estendre els avantatges de la calibració interna multipunt a
la quantificació proteòmica integral. Aquest enfocament es basa en la generació de corbes de
calibració interna multipunt mitjançant etiquetes en tàndem TMT, fet que permet una quantificació
precisa i reproductible en tot el proteoma en un sol experiment. Aplicada a línies cel·lulars de
càncer d'ovari tractades amb cisplatí, l'estratègia TMTCal va confirmar la linealitat en la
quantificació de la majoria dels pèptids del proteoma humà. Aquesta metodologia presenta un
gran potencial per a diverses aplicacions tant en investigació bàsica com en entorns clínics,
incloent-hi la proteòmica de mostres limitades i l’anàlisi a nivell de cèl·lules individuals.
En conjunt, els estudis presentats en aquesta tesi aborden desafiaments crítics en la proteòmica
actual, millorant la comprensió de l’accessibilitat, l’estabilitat i la quantificació del proteoma. Les
eines i metodologies desenvolupades amplien la fiabilitat i l’abast de la proteòmica basada en
espectrometria de masses, amb implicacions significatives per al descobriment de biomarcadors,
la recerca translacional i la medicina personalitzada.
dc.format.extent
104 p.
dc.language.iso
eng
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Proteòmica quantitativa
dc.subject
Quantitative proteomics
dc.subject
Proteómica cuantitativa
dc.title
Development of computational approaches for high precision and accuracy protein quantification.
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2025-10-08T14:43:45Z
dc.subject.udc
61
dc.contributor.director
Sabidó Aguadé, Eduard
dc.contributor.tutor
Sabidó Aguadé, Eduard
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Pompeu Fabra. Doctorat en Biomedicina


