Information Transfer and Dynamics of Nucleic Acids studied by Theoretical Approaches

Author

Balaceanu, Alexandra

Director

Orozco López, Modesto

Tutor

Novoa Vide, Juan J.

Date of defense

2018-12-12

Pages

425 p.



Department/Institute

Universitat de Barcelona. Facultat de Química

Abstract

1. The Force Field Accuracy Problem. The utility and applicability of MD simulations to model biomolecular systems goes only as far as its ability to sufficiently sample the conformational space and the correct description of the potential in terms of the force field functional form and parameter set. Clearly, the force field defines the shape of the conformational space for a given set of atomic positions and also the accessibility of energy minima. When simulating systems at equilibrium, especially quite stable systems such as DNA, the force fields strive to generate ensembles that reproduce well real systems and this does not have to come as a big trade-off with sampling power. In recent years it has become the business of computer engineers and software developers to address the issue of achieving long and biologically relevant time scales. Convergence and reproducibility of atomistic DNA simulations with state-of-the-art force fields such as our parmbsc1 has been convincingly demonstrated. It also seems that until a significant revolution, where milliseconds of simulation become routine, current sampling ranges completely cover the internal structures and dynamics of B-DNAs at this time scale. The growing confidence has allowed many researchers to use MD for very detailed studies on the sequence-dependent nature of DNA oligomers and on the complex arsenal of mechanisms that govern its behavior. In any such studies careful validation of results is necessary since it is not yet entirely clear how well and to what degree are sequence effects reproduced in MD. The fact that the latest-generation of force fields agree very well between themselves and that they fit with the sparse experimental data is surely very encouraging, but it will be some time until small differences in sequence geometries can be validated. Our own extensive validation of the parmbsc1 force field, as well as a large number of other works that have, since its publication, either specifically set out to assess its performance, or have just applied it with success, speak of a very stable parametrization able to deal with a wide range of DNAs. It is worth to mention that in special conditions small improvements might be necessary, which could be achieved with the inclusion of polarization terms. However, up to date, no force field has been able to model polarization without eventually destabilizing the system and this at a huge cost (a factor of 10) to calculation speed. To sum up, based on the remarkable performance of parmbsc1, we and other groups can employ it with confidence in the detailed study of DNA dynamics and we expect that the number of supporting results will only increase. 2. 2. Sequence-dependence and polymorphisms of B-DNA. So what is it that we actually learn from analyzing the conformation variability of DNA over its sequence space at the tetramer level? It is well established that different bps have different preferences regarding their internal geometries, and to some extent, Calladine’s set of heuristic rules is able to make sense of these differences. At the bps level, some sequences are extremely stable, such as ApT, and some sequences, such as CpG, have a bi-stable equilibrium and they convert between different arrangements of their internal geometries. There are cases where this frustration can be explained by their charge distribution, bulkiness or the strength of their stacking and h-bonding interactions, but in many cases in requires a more holistic view, taking higher-level sequence effects into account. In multi-microsecond MD simulations, intra-base-pair parameters are always unimodal since alternative states that might be accessed through base opening are not sampled in at this time scale. However, their ensemble averages show sizeable differences according to the change in sequence. Inter- base-pair parameters can be bimodal, but only in certain tetranulceotide combinations that make up about 5% of cases. This can be explained considering that the central bps of a particular combination of four nucleotides has a structural preference that is in conflict with those of its neighboring steps. In order to minimize the energy cost and satisfy as best as possible all conformational requirements, a more flexible bps will populate several states, usually a maximum of two. Optimization of geometries between several bps generally involve backbone rearrangements, with the sugar-phosphate acting as a hinge that allows consecutive bps to coordinate in a complex choreography often involving other factors, such as subtle changes in the solvent environment environment. In B-DNA the most important backbone transition is the BI/BII, which can be related to the base chemistry through the sequence-dependent relative strength of unconventional h-bonds that stabilize BII conformations. In a tetramer model of B-DNA, the backbone transitions of different tetramers are translated into motions along different internal degrees of freedom, depending on the sequence. Therefore, we are able now to build a picture of the interconnected conformational space of DNA as an overlap of tetranucleotide sequences with transferable structural descriptors. It is still a matter of speculation how these properties might be exploited by proteins and other binders for biological function. 3. Information transfer through the DNA. There are however a few special cases where the tetramer model does not seem to be sufficient. The CTAG is one such case that demonstrates that for a highly flexible and polymorphic tetramer, long-range sequence composition can have a notable effect on the structural properties of the central bps. Analyzing the mechanism behind this long-range communication through the DNA has meant more than anything else an opportunity to understand rare events of sequence modulation that might be a lot more general in cases of larger, induced distortions on the helix. In CTAG we could observe sequence influence not only from the hexamer level, but even from beyond, and the data points to a complex mechanism of information transfer across DNA through coordinated backbone movements. In performing biological function, DNA is often mistakenly viewed as an inert lattice onto which proteins assemble to replicate or transcribe genes. However, experiments demonstrate that information transfer in the DNA can happen even over long distances and can produce allosteric effects upon ligand binding. Without question, the binding of proteins or small molecules to the DNA can produce coupled conformational changes that may affect a neighboring binding site and increase its affinity for the secondary binding protein. Such changes need not alter ensemble averages and only potentiate modifications in the shape of the energy well at the secondary binding site. As seen from the dynamic information provided by an MD trajectory, maybe in more than one case of protein couples, DNA acts as a wire transmitting pulses of information originated at the primary binding site that travel to distant regions. We show that MD methods can provide reasonable explanations for cooperative binding phenomena on the DNA and open for the first time the possibility of the “allostery without conformational change” in the recruitment of proteins of the DNA scaffold. From a thermodynamic point of view, this type of cooperative binding seems to be entropy-driven. Thus, the first binding event freezes some of the degrees of freedom around it’s own binding region, but also reduces the entropy cost associated to the second binding.


1. Problema de exactitud del campo de fuerza La utilidad y aplicabilidad de las simulaciones de DM para modelar sistemas biomoleculares depende de su capacidad para muestrear suficientemente el espacio conformacional y la descripción correcta del potencial en términos de la forma funcional del campo de fuerza y el conjunto de parámetros. Claramente, el campo de fuerza define la forma del espacio conformacional para un conjunto dado de posiciones atómicas y también el acceso a los mínimos energéticos. Al simular sistemas en equilibrio, especialmente en sistemas bastante estables como el ADN, los campos de fuerza se esfuerzan por generar conjuntos que reproducen sistemas reales y no tiene por qué ser una gran desventaja con el poder de muestreo. En los últimos años, se ha convertido en tarea de los ingenieros informáticos y los desarrolladores de software abordar el problema de lograr escalas de tiempo largas y biológicamente relevantes. La convergencia y reproducibilidad de simulaciones de ADN atomístico con campos de fuerza de última generación, como nuestro parmbsc1, se ha demostrado de forma convincente. También parece que hasta llegar a una revolución significativa, donde los milisegundos de simulación se vuelven rutinarios, los rangos de muestreo actuales cubren por completo las estructuras internas y la dinámica de los ADN-B en esta escala de tiempo. La creciente confianza ha permitido a muchos investigadores utilizar DM para estudios muy detallados sobre la naturaleza dependiente de la secuencia de oligómeros de ADN y sobre el complejo arsenal de mecanismos que rigen su comportamiento. En cualquiera de estos estudios es necesaria una validación cuidadosa de los resultados ya que aún no está del todo claro qué tan bien y en qué grado se reproducen los efectos de secuencia en DM. El hecho de que la última generación de campos de fuerza coincida muy bien entre sí y que se ajusten a los escasos datos experimentales es seguramente muy alentador, pero pasará algún tiempo hasta que se puedan validar pequeñas diferencias en las geometrías de las secuencias. Nuestra propia validación extensiva del campo de fuerza parmbsc1, así como una gran cantidad de otros trabajos que, desde su publicación, se han establecido específicamente para evaluar su rendimiento, o simplemente lo han aplicado con éxito, hablan de una parametrización muy estable capaz de tratar con una amplia gama de ADN. Vale la pena mencionar que en condiciones especiales podrían ser necesarias pequeñas mejoras, lo que podría lograrse con la inclusión de términos de polarización. Sin embargo, hasta la fecha, ningún campo de fuerza ha sido capaz de modelar la polarización sin desestabilizar finalmente el sistema y esto a un costo enorme (un factor de 10) a la velocidad de cálculo. En resumen, con base en el notable desempeño de parmbsc1, nosotros y otros grupos podemos emplearlo con confianza en el estudio detallado de la dinámica del ADN y esperamos que el número de resultados de soporte solo aumente. 2. Dependencia de la secuencia y polimorfismos del ADN-B. Entonces, ¿qué es lo que realmente aprendemos al analizar la variabilidad de conformación del ADN sobre su espacio de secuencia a nivel de los tetrámeros? Está bien establecido que diferentes bps tienen diferentes preferencias con respecto a sus geometrías internas, y hasta cierto punto, el conjunto de reglas heurísticas de Calladine es capaz de dar sentido a estas diferencias. A nivel de bps, algunas secuencias son extremadamente estables, como ApT, y algunas secuencias, como CpG, tienen un equilibrio biestable y convierten entre diferentes disposiciones de sus geometrías internas. Hay casos en que esta frustración puede explicarse por la distribución de cargas, el volumen o la fuerza de sus interacciones de apilamiento y los puentes de hidrógeno, pero en muchos casos requiere una visión más integral, teniendo en cuenta los efectos de secuencia de más alto nivel. En simulaciones de DM de multi-microsegundos, los parámetros de pares intra-base son siempre unimodales ya que los estados alternativos a los que se puede acceder a través de la apertura de la base no se muestrean en esta escala de tiempo. Sin embargo, sus promedios de conjunto muestran diferencias considerables de acuerdo con el cambio en la secuencia. Los parámetros de pares de bases pueden ser bimodales, pero solo en ciertas combinaciones de tetranulceótidos que constituyen aproximadamente el 5% de los casos. Esto puede explicarse teniendo en cuenta que el bps central de una combinación particular de cuatro nucleótidos tiene una preferencia estructural que está en conflicto con la de sus pasos vecinos. Con el fin de minimizar el costo de energía y satisfacer de la mejor manera posible todos los requisitos conformacionales, un bps más flexible poblará varios estados, generalmente un máximo de dos. La optimización de las geometrías entre varios bps generalmente implica reorganizaciones de la red troncal, con el azúcar fosfato actuando como una bisagra que permite la coordinación consecutiva de bps en una coreografía compleja que a menudo involucra otros factores, tales como cambios sutiles en el entorno del solvente. En los ADN-B, la transición principal más importante es BI/BII, que se puede relacionar con la química a través de la fuerza relativa dependiente de la secuencia de puentes de hidrógeno no convencionales que estabilizan las conformaciones BII. En un modelo de tetrámero de ADN-B, las transiciones de la cadena principal de diferentes tetrámeros se traducen en movimientos a lo largo de diferentes grados internos de libertad, dependiendo de la secuencia. Por lo tanto, ahora podemos construir una imagen del espacio conformacional interconectado del ADN como una superposición de secuencias de tetranucleótidos con descriptores estructurales transferibles. Todavía es una cuestión de especulación cómo estas propiedades podrían ser explotadas por proteínas y otras moléculas que se unen al ADN para diferentes funciones biológicas. 3. Transferencia de información a través del ADN. Sin embargo, hay algunos casos especiales en los que el modelo de tetrámero no parece ser suficiente. El CTAG es uno de esos casos que demuestra que, para un tetrámero altamente flexible y polimórfico, la composición de la secuencia de largo alcance puede tener un efecto notable sobre las propiedades estructurales del bps central. Analizar el mecanismo detrás de esta comunicación de largo alcance a través del ADN ha significado más que nada una oportunidad para comprender los raros eventos de modulación de secuencia que podrían ser mucho más generales en casos de distorsiones mayores e inducidas en la hélice. En CTAG pudimos observar la influencia de la secuencia no solo desde el nivel del hexámero, sino incluso más allá, y los datos apuntan a un complejo mecanismo de transferencia de información a través del ADN mediante movimientos coordinados de la cadena principal. En la realización de la función biológica, el ADN a menudo se considera erróneamente como un retículo inerte sobre el cual las proteínas se ensamblan para replicar o transcribir genes. Sin embargo, los experimentos demuestran que la transferencia de información en el ADN puede ocurrir incluso a largas distancias y puede producir efectos alostéricos sobre la unión al ligando. Sin lugar a duda, la unión de proteínas o moléculas pequeñas al ADN puede producir cambios conformacionales acoplados que pueden afectar a un sitio de unión vecino y aumentar su afinidad por la proteína de unión secundaria. Tales cambios no necesitan alterar los promedios del conjunto y solo potencian modificaciones en la forma del pozo de energía en el sitio de unión secundario. Como se ve a partir de la información dinámica proporcionada por una trayectoria de DM, tal vez en más de un caso de parejas de proteínas, el ADN actúa como un cable que transmite pulsos de información originados en el sitio primario de unión que viajan a regiones distantes. Mostramos que los métodos de DM pueden proporcionar explicaciones razonables para los fenómenos de unión cooperativa en el ADN y abren por primera vez la posibilidad de la "alostería sin cambio conformacional" en el reclutamiento de proteínas al ADN. Desde un punto de vista termodinámico, este tipo de enlace cooperativo parece estar impulsado por la entropía. Por lo tanto, el primer evento vinculante congela algunos de los grados de libertad alrededor de su propia región de unión, pero también reduce el costo de entropía asociado al segundo enlace.

Keywords

Àcids nucleics; Ácidos nucleicos; Nucleic acids; Modelatge nuclear; Modelaje nuclear; Nuclear modelling

Subjects

54 - Chemistry. Crystallography. Mineralogy

Knowledge Area

Ciències Experimentals i Matemàtiques

Documents

01.ALEXANDRA BALACEANU_THESIS.pdf

12.03Mb

02.ALEXANDRA BALACEANU_ANNEX.pdf

16.09Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)