Análisis, validación y estudio poblacional de las inversiones entre dos genomas humanos

Autor/a

Vicente Salvador, David

Director/a

Cáceres Aguilar, Mario

Data de defensa

2014-09-14

ISBN

9788449050770

Dipòsit Legal

B-5024-2015

Pàgines

234 p.



Departament/Institut

Universitat Autònoma de Barcelona. Departament de Genètica i de Microbiologia

Resum

Las inversiones fueron las primeras variantes estructurales detectadas y asociadas a efectos fenotípicos en varias especies. Sin embargo, la dificultad de su estudio las ha llevado a ser las peor caracterizadas en genomas complejos como el humano. En los últimos años, se ha predicho un elevado número de posibles inversiones polimórficas en humanos mediante técnicas a gran escala como el mapeo de extremos apareados de fósmidos o la secuenciación de genomas completos, pero pocas de estas predicciones han sido validadas o estudiadas en detalle. En este trabajo se han investigado las 90 inversiones que provienen de la comparación de dos genomas ensamblados de forma independiente: el genoma de Referencia HG18 y el de J. Craig Venter (HuRef). El análisis detallado de su secuencia ha demostrado que 31 (34.4%) son errores en la comparación de ambos genomas. A continuación se han analizado experimentalmente 46 de las 59 regiones candidatas restantes (51.1%) mediante PCR y PCR inversa en el ADN de HuRef y un panel de 9 individuos de HapMap de origen Africano, Asiático y Europeo. De éstas, 18 han resultado contener inversiones polimórficas reales y 30 son errores de ensamblaje en uno de los genomas (25 errores en HG18 y 5 en HuRef). Estos errores se han confirmado experimentalmente amplificando la región en los clones BAC del genoma de Referencia o en el ADN de HuRef, respectivamente. De esta manera se ha podido eliminar un gran número de predicciones falsas y se ha contribuido a definir un catálogo fiable de inversiones polimórficas en el genoma humano. Además, 17 de las inversiones validadas se han genotipado en 90 individuos de HapMap de origen Europeo y en dos especies de primates y 7 con puntos de rotura sencillos se han genotipado in silico en 1092 individuos de 14 poblaciones del proyecto de los 1000 Genomas, a través de la detección de secuencias que contienen los puntos de rotura. Los genotipos nos han permitido encontrar SNP marcador, establecer las frecuencias del alelo invertido en diferentes poblaciones y la orientación ancestral. Mediante el análisis de la variación nucleotídica y haplotípica se ha podido determinar también el origen único o recurrente de las inversiones en la población Europea, y se han encontrado tres inversiones que habrían ocurrido en haplotipos diferentes. El análisis de secuencia de los puntos de rotura nos ha permitido determinar su mecanismo de formación e identificar genes cuya expresión podría verse afectada. Como resultado, se ha visto que las inversiones forman dos grupos según las características de sus puntos de rotura: las inversiones con puntos de rotura no localizados en repeticiones invertidas (RIs) generalmente tienen un tamaño menor y están formadas por mecanismos no homólogos que determinan su origen único, mientras que las inversiones con puntos de rotura en RIs tienen un tamaño mayor y están formadas por mecanismos homólogos que determinan su posible origen recurrente. Por otra parte, las inversiones analizadas destacan por localizarse fuera de regiones codificantes, en regiones intergénicas o dentro de intrones, aunque algunas invierten parcial o completamente genes duplicados. Finalmente, se han clasificado las inversiones según su posible implicación adaptativa mediante el análisis de las diferencias de frecuencia en las poblaciones, el estado ancestral, el índice de estructuración de la población Fst, y los posibles efectos sobre genes determinados por la posición de los puntos de rotura. En general no se esperan efectos drásticos de sus puntos de rotura, aunque las inversiones HsInv0006 y HsInv0030 son candidatas a tener efectos sobre los genes DSTYK y CTRB2/CTRB1, respectivamente, y en el caso de la inversión HsInv0006 su distribución poblacional sugiere posibles efectos adaptativos.


Inversions were the first type of structural variants to be detected and associated to phenotypic effects in different species. However, studying them was difficult and they have become one of the less characterized variants in complex genomes such as the human. In the last years, a great number of putative polymorphic inversions have been predicted in humans by high-throughput techniques, like fosmid paired-end mapping or whole genome sequencing, but few of them have been validated or studied in detail. In this work we have investigated the 90 inversions coming from the comparison of two independently assembled genomes, the Reference genome HG18 and J. Craig genome (HuRef). By analysing in detail its sequence, we have shown that 31 (34.4%) regions are errors in the comparison of both genomes. Next,we have experimentally analyzed 46 out of the 59 remaining candidate regions (51.1%) by PCR and inverse PCR using DNA from HuRef and 9 HapMap individuals from Africa, Asia and Europe. Of those, 18 have resulted to be polymorphic inversions and 30 are assembly errors of one of the genomes (25 HG18 errors and 5 HuRef errors). These errors have been experimentally confirmed by amplifying the region in the BAC clones from the Reference genome or in HuRef's DNA, respectively. Thus, we have been able to eliminate a high number of false predictions and contributed to the definition of a reliable catalog of polymorphic inversions in the human genome. In addition, for 17 of the validated inversions we have genotyped 90 European HapMap individuals and two primate species, and for 7 inversions with simple breakpoints we have also genotyped in silico 1092 individuals from 14 populations from the 1000 Genomes Project through the detection of sequences that contain the breakpoints. Genotypes have been used to find tag SNPs, establish the frequency of the inverted allele in the different populations and the ancestral orientation. Trough the analysis of the nucleotide and haplotype variation it has also been possible to determine the unique or recurrent origin of inversions, and three inversions generated in different haplotypes have been found. The analysis of the breakpoint sequence have allowed us to determine its formation mechanism and to identify genes whose expression could be affected. As a result, inversions can be classified in two groups depending on its breakpoint characteristics: inversions with simple breakpoints not located in inverted repeats are smaller and are formed by non-homologous mechanisms that imply an unique origin, whereas inversions with breakpoints located in IRs are longer and are formed by homologous mechanisms that are related to their potential recurrent origin. On the other hand, the analyzed inversions tend to be located out of coding regions, in intergenic regions or within introns, although few of them invert partially or completely duplicated genes. Finally, inversions have been classified according to its possible adaptive effects based on the analysis of frequency differences among populations, ancestral state, the Fst population structure index, and possible effects over genes determined by breakpoint position. The inversions that we have analyzed are located out of coding regions, in intergenic regions or into introns, although few of them partial or completely invert duplicated genes. In general no drastic effects of its breakpoints are expected, but inversions HsInv0006 and HsInv0030 are candidates to affect the DSTYK and CTRB2/CTRB1 genes, respectively, and in the case of inversion HsInv0006, its population distribution suggests possible adaptive effects.

Paraules clau

Inversions; Inversiones; Genoma humà; Genoma humano; Human genome; Polimórfiques; Polimórficas; Polymorphic

Matèries

575 - Genètica general. Citogenètica general. Immunogenètica. Evolució. Filogènia

Àrea de coneixement

Ciències Experimentals

Documents

dvs1de1.pdf

3.351Mb

 

Drets

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

Aquest element apareix en la col·lecció o col·leccions següent(s)