Mètode Bayesià per a l’anàlisi d’Haplotips en estudis d’Associació Genètica. Aplicació a dades d’Esquizofrènia i Càncer

Author

Iniesta Benedicto, Raquel

Director

Moreno Aguado, Víctor

Tutor

Torres Benítez, Ferran

Date of defense

2010-11-23

Legal Deposit

B-pendent-2011

Pages

316 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Pediatria, d'Obstetrícia i Ginecologia i de Medicina Preventiva

Abstract

Els avenços que a les darreres dècades han protagonitzat les tècniques de genotipatge i de seqüenciació, unit al desenvolupament de tècniques estadístiques especialitzades i sofisticades, han permès elaborar noves vies de recerca per comprendre l’etiologia de malalties complexes l’origen de les quals, en molts casos, és multifactorial. Així com s’han establert factors ambientals que poden modular el risc de patir certes malalties, també s’han detectat variants genètiques que hi poden estar involucrades. Patologies com la diabetis, el càncer, l’esquizofrènia o l’asma es veuen influenciades per factors genètics en interacció amb factors ambientals. Al capdavant d’aquestes investigacions es troben els mapes de polimorfismes. El polimorfisme més comú al genoma humà és la variació en una sola base de la seqüència genòmica, l’anomenat ”Single Nucleotide Polimorphismï conegut per les seves inicials ”SNP”. Degut a la seva abundància, els SNPs són molt adients per generar mapes genètics i han esdevingut els marcadors més utilitzats en estudis d’associació genètica. Si bé des de fa dècades l’estudi del genoma humà s’ha centrat principalment en analitzar les variacions en la seqüència genòmica, des d’inicis de l’any 2000 sabem per diversos estudis que aquestes variacions tendeixen a donar-se en bloc. D’altra banda, també s’ha demostrat que les recombinacions genètiques que es donen al llarg del genoma no es produeixen de manera uniforme. Per aquest motiu, el genoma presenta zones que es transmeten en bloc, de progenitors a descendents, i que poden incloure blocs de variacions. Aquestes zones de baixa recombinació que es segreguen en bloc són els anomenats haplotips. Els haplotips poden facilitar el descobriment de gens relacionats amb malalties que pateixen els éssers humans. L’inter`Les en l’assignació d’haplotips i l’anàlisi de l’associació entre haplotips i malaltia en mostres d’individus no relacionats ha crescut incommensurablement als darrers anys degut a l’èmfasi que projectes com HapMap han situat sobre l’anàlisi d’haplotips. Ara bé, la deter-minació dels haplotips donada una mostra de genotips per un conjunt d’individus no sempre és immediata, havent de recórrer a tècniques específiques per tal de separar els cromosomes. Les tècniques de tipus molecular són les que aporten menys error però desafortunadament són cares i això dificulta el seu ús, sobretot en estudis poblacionals que tracten amb mostres grans. Per superar aquesta limitació, les investigacions han tendit a utilitzar la inferència estadística com a via més usual a l’hora de determinar els haplotips. La inferència sobre les freqüències haplotípiques és una bona solució per reconstruir la mostra haplotípica, però cal tenir present els efectes que el fet de treballar amb estimacions comportarà sobre tots els càlculs que es realitzin amb la mostra. En aquest sentit, resulta interessant dedicar esfor¸cos per tal d’intentar minimitzar la propagació d’aquests errors en les anàlisis d’associació genètica amb haplotips. Tot i que existeix diversitat de programes per fer anàlisis haplotípiques aplicables a mostres d’individus no relacionats, molts d’ells presenten limitacions que esdevenen una bona mo-tivació per intentar cercar d’altres alternatives teòriques i computacionals per tractar més eficientment la problemàtica dels haplotips. En aquesta tesi doctoral es presenta el desenvolupament i la implementació informàtica d’un mètode per estimar haplotips i els efectes associats a diversos tipus de fenotips. El marc teòric amb que s’ha treballat és la inferència Bayesiana combinada amb tècniques de Markov Chain Monte Carlo que optimitzin les qües-tions computacionals. L’eina resultat és el paquet BayHap, publicada com a paquet a l’entorn estadístic R. El programa s’ha validat sobre escenaris de dades simulats i sobre dades reals. L’aplicació mostra millores en l’estimació d’efectes associats a haplotips amb baixa freqüència i alhora ofereix la possibilitat de dur a terme l’anàlisi d’haplotips sota un punt de vista bayesià amb les avantatges que aquest fet ofereix.


Nowadays, haplotypic information has become vitally important to clarify the genetic basis of the etiology of some common diseases. Comparing DNA of healthy and diseased individuals let us to describe changes in the genomic sequence that could modify the risk of su ering from the disease. Association studies are the framework where this class of analysis are carried out. The DNA variations more often analyzed due to its high frequency along the genome are the Single Nucleotide Polimorphisms. One \SNP" is the change in only one nucleotide between individuals at the same position of their genomes. Is well known that there are zones in the genomic sequence with a low rate of recombinations, that are inherited as a block by the o spring. These zones are called haplotypes, and everyone carries two of them. On the other hand, in the last decade researchers have stated that mutations as SNPs are also transmitted in blocks, situated in haplotypic zones. For all of this, the knowledge of haplo- types corresponding to a sample of genotypes observed for some SNPs of a set of unrelated individuals could be very helpful to better understand the genetic association with a phe- notype of interest. Initiatives as the international HapMap project have strongly motivated the scienti c community to use haplotypes in association analysis. Unfortunately, in the absence of family data, obtaining haplotypic information is not straightforward. Since every cell of the human organism contains 22 pairs of homologous chromosomes, plus the sexual chromosome, for each chromosomical location at the autosomal chromosomes there are two bases, one for each homologous chromosome at the same position of the DNA sequence. Given that current lab techniques usually only report genotypic data and do not provide the chromosome for each base, individuals with two or more heterozygous sites have uncertain haplotypes because there is more than one possible haplotype pair compatible with their genotype. To overcome this limitation, research has tend to use statistical inference as the most common way to determine haplotype information. Although statistical inference of haplotypes frequencies is a good solution to reconstruct the haplotypes sample researchers have to take into account the error propagation in posterior analysis. This is an encouraging situation to apply e orts in order to minimize unwanted e ects. Even though there are some programs to do haplotypic analysis over unrelated individuals, most of them have unresolved questions as could be the estimation of association between disease and low frequency haplotypes. In this work we develop and implement a method to infer haplotypes and association with many types of phenotypes. The theoretical frame- work in which we based our algorithm is the bayesian inference and Markov Chain Monte Carlo techniques. The resulting application is an R package called BayHap available from de repository of packages of this free statistical environment. The program was validated through computational simulations and also applied over real data. The application shows better performance than other algorithms in case of low frequencies haplotypes. In addition, the package o ers the chance of make analysis through a bayesian point of view, with all the strength this fact can suppose.

Keywords

Associació genètica; Haplotips; Bayesià

Subjects

575 - General genetics. General cytogenetics

Knowledge Area

Ciències de la Salut

Documents

rib1de1.pdf

5.480Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)