Bioinformatic Study of Antigen Presentation by HLA class II

Author

Muñoz Torres, Pau Marc

Director

Daura i Ribera, Xavier

Cedano Rodríguez, Juan Antonio

Date of defense

2014-01-14

ISBN

9788449041914

Legal Deposit

B-4394-2014

Pages

114 p.



Department/Institute

Universitat Autònoma de Barcelona. Institut de Biotecnologia i de Biomedicina

Abstract

Entendre quin és el cribratge al que estan sotmesos els pèptids abans de poder-se unir a les molècules del complex major d’histocompatibilitat classe II o major histocompatibility complex class II en angles (MHC classe II o HLA classe II en humans) per a més tard ser presentats als limfòcits T és especialment rellevant per les seves implicacions en salut, a l’estar involucrats en diferents processos relacionats amb la defensa de l’organisme, des de la resposta davant d’infeccions a les reaccions autoimmunitàries, passant pel reconeixement de les cèl·lules cancerígenes. L’objectiu d’aquesta tesi ha estat desenvolupar diferents estratègies usant tècniques bioinformàtiques per a identificar els patrons que reconeixen les diferents molècules del HLA alhora de seleccionar els pèptids que més tard presentaran els diferents al·lels i, per extensió, poder arribar a predir si un determinat pèptid tindrà la capacitat d’unir-se a una determinada molècula d’HLA. Un cop desenvolupat l’algoritme de determinació i predicció de patrons es va construir una plataforma web per poder-hi analitzar grans quantitats de pèptids i/o proteïnes mitjançant diferents funcionalitats. Per a poder assolir aquests objectius, el treball es va dividir en tres fases diferents. La primera fase va consistir en construir una base de dades relacional en postgesql per a poder-hi emmagatzemar tant la informació requerida per al correcte funcionament de l’algoritme com les dades resultants de l’anàlisi d’aquesta informació. La informació requerida per al correcte funcionament de l’algoritme està formada per epítops per als quals es coneix si són o no presentats per les diferents molècules d’HLA classe II i diferents proteomes de patògens humans, així com el proteoma humà. A més a més, s’hi ha inclòs una secció privada on els usuaris registrats poden pujar-hi dades d’epítops derivades de les seves pròpies investigacions per poder-los analitzar en combinació amb les dades públiques del sistema per a una mateixa molècula. En la segona fase d’aquest treball es varen desenvolupar dos predictors, el primer usant un sistema basat en matrius de puntuació específiques de posició (position-specific scoring matrices en anglès, també conegudes com a PSSM) i el segon usant màquines d’aprenentatge de vectors de suport (Suport vector machines en anglès o SVM). Les PSSM varen ser desenvolupades usant un protocol iteratiu d’optimització, on es comença usant la informació proporcionada per l’alineament de segments de 9 residus en epítops, identificats com a possibles regions d’interacció amb les molècules d’HLA objectes de estudi, i posteriorment es va afegint informació tant de pèptids que no s’uneixen a la molècula com del grau de conservació dels diferents al·lels. Per a la construcció de la SVM, els segments d’unió dels pèptids a cada una de les molècules d’HLA es van definir a partir les PSSM construïdes per a cada una d’elles i els paràmetres per a la SVM amb una funció de base radial (Radial-basis function o RBF) com a nucli (kernel) varen ser fixades individualment per a cada cas a fi i efecte d’assolir els millors resultats possibles. En la tercera i última fase d’aquest projecte, es van construir dos pàgines web, una per cada predictor. Aquests predictors tenen en comú que els usuaris en general poden introduir-hi llistats de pèptids i/o proteïnes en format FASTA per a ser analitzades. Aquestes anàlisi tornen com a resultat els possibles motius d’unió detectats i la seva localització en els proteomes seleccionats. Una característica particular del predictor basat en PSSM és que els usuaris registrats poden pujar seqüències resultants de la seva pròpia investigació per trobar nous patrons d’unió a molècules d’HLA noves o millorar els existents i fer prediccions amb ells.


Understanding how peptides are selectively bound and presented by major histocompatibility complex class II molecules (MHC class II or HLA class II in humans) is of outmost importance for its broad implications in human health, from infection to autoimmunity or cancer. The aim of this thesis was to develop a computational strategy to identify HLA class II binding patterns for a variety of alleles and use this knowledge to predict their capacity to bind specific peptide sequences. To make an effective use of the prediction algorithm, a web-based platform for the analysis of large peptide or protein sets, including various functionalities, was also devised. In order to accomplish these objectives, the work was divided into three different stages. The first stage consisted in the construction of a postgresql relational database to store all the information required for and generated by the algorithms developed. The required, uploaded information (subject to updates) consisted of known HLA class II epitopes and the translated genomes of a list of pathogenic bacterial species and human. In addition, the database was designed to include a private section for the upload of user-owned epitope information, which the owner may use in combination with the public data. In a second stage two predictors were developed, one using position-specific scoring matrices (PSSMs) and the other one using a support vector machine (SVM). PSSM development was performed using an iterative optimisation protocol, starting from the alignment of known epitopes to identify HLA class II binding cores (9-residue segments) and incorporating additional information such as allele conservation and non-binders at different phases of the refinement. For SVM construction, the epitope core was defined using the corresponding PSSM and the parameters for the SVM with a radial-basis-function (RBF) kernel were set up individually for each molecule to get the best performance. In the third stage, two web pages were constructed, one for each predictor. The servers share a common part in which the user can introduce peptide or protein sequences in Fasta format to perform an analysis that delivers both putative epitopes and their localization in a selected proteome. In addition, the PSSM-based server allows the user to upload his/her own sequences to elucidate new HLA class II binding patterns and perform predictions with them.

Keywords

HLA; Presentation; Antigen

Subjects

57 - Biological sciences in general

Knowledge Area

Ciències Experimentals

Documents

pmmt1de1.pdf

1.483Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)