Variability in domain-scale regional mutation density across tissues and individuals

Author

Salvadores Ferreiro, Marina

Director

Supek, Fran

Tutor

Abril Fernando, Josep Francesc, 1970-

Date of defense

2024-01-18

Pages

267 p.



Department/Institute

Universitat de Barcelona. Facultat de Biologia

Abstract

[eng] Mutations exhibit an uneven distribution across the human genome, with a regional mutation density (RMD) influenced by chromatin landscapes and replication timing. While there is a good understanding of this variation, considered in aggregate across individuals, the existence of inter-individual differences in local and regional mutational risk remains elusive. In this thesis, we aim to systematically characterize the variability in RMD across different somatic tissues and individuals, use the RMD patterns for tumor type classification, and use strand biases in mutations to detect origins of replication. First, we developed a statistical method based on non-negative matrix factorization to discern mutation risk heterogeneity across megabase-sized chromosomal domains, utilizing over 4,000 tumor whole-genome sequences (WGS) to derive RMD profiles. From this analysis, we identified 13 genome-wide mutation risk redistribution trends, or “RMD signatures”. Ten of these were tissue-specific, ranging from patterns unique to one individual tissue to those shared between tissues with similar physiology. These tissue-specific patterns may help identify the cell-of-origin and subtype of a tumor. Additionally, we identified three global, tissue-independent RMD signatures, which were universally found across many cancer types. Of these, the RMDflat signature, which implies a more uniform distribution of mutations throughout the genome, was previously identified in MMR-deficient tumors, serving as a validation of the method. Beyond MMR deficiency, we found HR deficiency to be responsible for this uniform distribution. The remaining two global signatures, which we named RMDglobal1 and RMDglobal2, are novel. The RMDglobal1 preferentially affects facultative heterochromatin, is enriched in B1 subcompartment and subtelomeric regions. This RMD mutation risk signature strongly reflects recurrent programs in regional plasticity in replication timing (RT), heterochromatin and DNA accessibility, which we observed across tumors, tissues and cultured cells, and is robustly linked with a higher expression of cell proliferation genes. Consistently, this RMD redistribution pattern is associated with altered cell cycle control via loss of the RB1 tumor suppressor gene. The RMDglobal2 signature was associated with loss-of-function of the TP53 pathway, affecting the redistribution of mutation rates within late RT regions. These global signatures divert the local mutation supply towards certain chromosomal domains, impacting 26%-75% of cancer driver genes and potentially altering the trajectory of cancer evolution. Second, we applied machine learning classifiers, trained on the RMD profiles of the tumors to predict 18 tumor types. These classifiers exhibited a striking accuracy (median AUC of 0.99), further highlighting their diagnostic potential for cancers of unknown primary; we also propose value of RMD for subtyping tumors. When compared with driver mutations, these passenger mutation features including RMD patterns and trinucleotide mutational signatures, exhibited a superior 92% accuracy, underscoring the value of WGS for tumor diagnostics. A further refinement of these mutation-based predictors that incorporated transcriptomic and epigenomic profiles enabled the prediction of tissue-of-origin in 600 cell lines. Upon evaluation, 60% of the cell lines closely matched their known tumor type of origin, while the rest were poorer matches, and 6% were suspected of being annotated with the incorrect tissue. Lastly, we developed a computational method, MuSAS, to identify replication origins based on strand asymmetry in mutation densities of various mutational signatures. By comparing the strand bias profiles switch points across approximately 300 of tumors, we discerned tissue-specific replication origin usage patterns in at least seven tissues, with a prominent signal of brain-specific origins. These tissue-specific replication origins correlate with earlier replication timing in the matching tissue and have a higher prevalence of nearby tissue-specific genes. These origins also display enrichment of chromatin accessibility and enhancer and promoter histone marks in the matched tissues. Altogether, this suggests a mechanistic link between tissue-specific gene/chromatin activation and tissue-specific origin usage. In summary, this thesis presents a comprehensive study of the regional distribution of somatic mutations, and their variability both across tissues and individuals. Our studies help elucidate mechanisms behind this variability, quantify their impact on cancer evolution, as well as evaluate its applications to detect cancer type.


[spa] Las mutaciones se acumulan de manera no uniforme a lo largo del genoma humano. Esta distribución está influenciada por la estructura de la cromatina y el tiempo de replicación. Aunque esta variabilidad está caracterizada en el conjunto de individuos, la existencia de diferencias interindividuales en el riesgo mutacional local y regional aún no ha sido elucidada. En esta tesis, nuestro objetivo es caracterizar sistemáticamente la variabilidad en la distribución de las mutaciones entre diferentes tejidos e individuos, usar estos patrones de mutación para clasificar los tipos de cáncer y para detectar orígenes de replicación. Primero, desarrollamos un método estadístico basado en la factorización de matrices no negativas para identificar patrones de redistribución de mutaciones en el dominios cromosómicos de una megabase, utilizando más de 4,000 secuencias del genoma completas para calcular perfiles de densidad de mutaciones. En este análisis, identificamos 13 patrones que describen redistribuciones del riesgo de mutación en el genoma. Diez de estas son específicas para un tejido o grupo de tejidos con una fisiología similar. Estos patrones específicos de tejido pueden servir para identificar la célula de origen y el subtipo de un tumor. Además, identificamos tres patrones de redistribución de mutaciones que son globales e independientes del tejido, ya que están presentes en la mayoría de los tipos de cáncer. El primer patrón, RMDflat, causa una distribución más uniforme de mutaciones a lo largo del genoma y fue previamente identificada en tumores deficientes en MMR, sirviendo como validación del método. Aparte de la deficiencia en MMR, en este estudio encontramos que la deficiencia en HR también causa esta distribución uniforme. Los otros dos patrones de distribución globales son novedosos y los llamamos RMDglobal1 y RMDglobal2. RMDglobal1 afecta preferentemente a la heterocromatina facultativa y está enriquecida en regiones subteloméricas. El patrón de RMDglobal1 está correlacionado con plasticidad en el tiempo de replicación, la heterocromatina y la accesibilidad al ADN, observada en tumores, tejidos y células cultivadas, asociada con una mayor expresión de genes de proliferación celular. Consistentemente, este patrón está asociado con la alteración del ciclo celular a través de la pérdida del gen supresor de tumores RB1. RMDglobal2 está asociado con la pérdida de función de gen TP53, afectando la redistribución de mutaciones en las regiones con tiempo de replicación tardío. Estos tres patrones de redistribución globales pueden cambiar el suministro local de mutaciones en ciertas regiones genómicas, impactando en el 26% al 75% de los genes impulsores del cáncer y potencialmente alterando la trayectoria de la evolución del cáncer. En segundo lugar, aplicamos clasificadores de aprendizaje automático, entrenados en los perfiles de densidad de mutaciones en ventanas de 1 megabase de los tumores, para predecir 18 tipos de cáncer. Estos clasificadores mostraron una alta precisión (AUC mediana de 0.99), destacando su potencial diagnóstico para cánceres de origen desconocido; también proponemos que pueden servir para identificar el subtipo de cáncer. Al comparar con mutaciones ‘driver’ (oncogénicas), las mutaciones pasajeras (no oncogénicas), incluyendo nuestros patrones de densidades, mostraron una precisión superior del 92%, subrayando el valor de secuenciar el genoma completo para el diagnóstico. Además, incorporando perfiles transcriptómicos y epigenómicos a estos clasificadores pudimos predecir el tejido de origen en 600 líneas celulares. Donde vimos que el 60% de las líneas celulares coincidían estrechamente con su tipo de tumor de origen conocido, mientras que el resto coincidían peor, en particular sospechamos que el 6% de las líneas celulares están anotados con el tejido incorrecto. Por último, desarrollamos un método computacional, MuSAS, para identificar orígenes de replicación basado en la asimetría de las mutaciones entre las dos hebras del ADN. Al comparar los orígenes de replicación identificados en aproximadamente 300 tumores, encontramos siete patrones de uso de origen de replicación que son específicos de un tejido, con una señal prominente de orígenes de replicación específicos del cerebro. Estos orígenes de replicación específicos de un tejido, se correlacionan con un tiempo de replicación temprano en el tejido correspondiente y tienen una mayor prevalencia de genes específicos de ese tejido. Estos orígenes también muestran un enriquecimiento de la accesibilidad de la cromatina y marcas específicas de histonas en ‘enhancers’ y ‘promoters’ en los tejidos correspondientes. En conjunto, esto sugiere un vínculo entre la activación génica y de la cromatina con el uso de orígenes de replicación específicos para un tejido. En resumen, esta tesis presenta un estudio exhaustivo de la distribución regional de las mutaciones y su variabilidad en diferentes tejidos e individuos. Nuestros estudios ayudan a aclarar los mecanismos detrás de esta variabilidad, cuantificar su impacto en la evolución del cáncer, así como evaluar sus aplicaciones para detectar el tipo de cáncer.

Keywords

Genòmica; Genómica; Genomics; Oncologia; Oncología; Oncology; Mutació (Biologia); Mutación (Biología); Mutation (Biology); Cromatina; Chromatin; Duplicació de l'ADN; Replicación del ADN; DNA replication

Subjects

575 - General genetics. General cytogenetics

Knowledge Area

Ciències Experimentals i Matemàtiques

Note

Programa de Doctorat en Biomedicina / Tesi realitzada en l'Institut de Bioenginyeria de Catalunya (IBEC)

Documents

This document contains embargoed files until 2024-07-18

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)