Evolutionary computation methods for protein structure prediction and for the computational modeling of the protein folding process

Varela, Daniel

Título

Título(s) alternativo(s)

Métodos de computación evolutiva para la predicción de la estructura de proteínas y para la modelización computacional del proceso de plegado de proteínas

Autor(es)

Varela, Daniel

Director(es)

Santos Reyes, José

Data

2019

Resumo

[Abstract] This thesis was focused on the use of hybrid evolutionary computation methods for the Protein Structure Prediction (PSP) problem, as well as a first attempt to model protein folding with machine learning, using again evolutionary computation as an optimization method to infer the folding model. Given the increasing sequence/structure gap in protein knowledge, the computational methods of PSP are crucial to tackle the problem. The work developed in this thesis is included in the “ab initio” prediction, which is the most challenging since it relies only on the information of the protein sequence to determine the native structure. In this case of ab initio, the energy landscapes/ search spaces associated with protein conformational representation models are high dimensional and rugged, in atomic models and even in simplified lattice models of protein representation. Therefore, the research has been focused on the use of metaheuristics in order to sample the vast conformational space, metaheuristics which usually are included in the bio-inspired or natural computation field. In this thesis a first combination between the global search of a robust evolutionary algorithm (Differential Evolution - DE) and local search techniques was used for the PSP problem. This hybrid version was initially defined for a detailed lattice model for protein representation (Face Centered Cubic lattice - FCC). The defined local greedy search selects, in each move between two consecutive amino acids, the move that minimizes the energy of the consequent protein conformation. That local search can be used to refine the trial conformations provided by the DE genetic operators as well as the conformations of the genetic population, following a classic Lamarckian combination that can minimize the number of fitness evaluations in the search for optimized solutions (protein conformations). Next, the previous combination was extended to tackle the same problem in an atomic model, using the coarse-grained representation of the Rosetta system, one of the most successful software environments for protein design. The extension of the previous work with the FCC model considers the adaptation of the DE optimization to the new protein representation with dihedral angles. The Rosetta’s fragment insertion technique was used to implement a local search procedure, technique which can locally refine the dihedral angles of a protein conformation. Therefore, with the same elements as in the previous case (FCC lattice model), the defined hybrid version follows the same ideas with a Lamarckian combination between DE and the local search. The results with resolved proteins from the Protein Data Bank show that the hybrid version obtains lower energy conformations in comparison with previous works and with Rosetta ab initio protocol and under the same number of fitness/energy evaluations. Moreover, the same hybrid DE version was used to take into account the information of cryo-electron microscopy (cryo-EM) maps. In this case, the adapted hybrid version allows the refinement of protein conformations using the information of cryo-EM and in order to obtain closer structures to the native one. Nevertheless, in atomic models, a problem can appear when the energy landscape is deceptive. In the Rosetta case, it means that the global minimum in the high dimensional energy landscape does not necessarily correspond to the native structure. We approach the problem with a possibility in evolutionary computation that was not directly considered in this application. The possibility is the use of niching methods in a multimodal energy landscape, methods that can locate the individuals of the population in the most promising areas (niches) of the fitness landscape. Thus, the hybrid DE algorithm was combined with classic evolutionary computation niching methods (crowding, fitness sharing and speciation), with the aim of obtaining protein conformations that correspond to decoys in different niches and with different folds. The developed methods allow obtaining potential solutions at the final generations with a diverse set of folds with different distances (RMSD) from the real native conformation. The last part of the thesis is related to the protein folding process and how to model it from a pure machine learning approach. For the modeling, the folding process was considered as an emergent process, result of the interactions through time between the protein components. Therefore, we relied on classic tools like Cellular Automata (CA) to model such an emergent process. The classic CA rule set was extended since it was implemented with Artificial Neural Networks (ANNs), and the ANNs were automatically obtained by an evolutionary algorithm. The optimized CA/ANNs define the local changes in a protein conformation through time until a final conformation is reached. The proposed methods were implemented with lattice models, using again the detailed FCC model and, next, all the methodology was extended to the coarse-grained atomic representation of Rosetta. Limitations appear in such a modeling, but even with the simplifications and limitations found, the work performed can be considered a first attempt of using machine learning to automatically obtain a model of the folding process.

[Resumen]Esta tesis se centró en el uso de métodos híbridos de computación evolutiva para el problema de predicción de la estructura de proteínas (Protein Structure Prediction - PSP), así como un primer intento de modelar el plegado de proteínas con aprendizaje automático, utilizando nuevamente computación evolutiva como método de optimización para inferir el modelo de plegado. Dada la creciente brecha de secuencia/estructura en el conocimiento de las proteínas, los métodos computacionales de PSP son cruciales para abordar el problema. El trabajo desarrollado en esta tesis se incluye dentro de la predicción “ab initio”, que es la más desafiante ya que se basa únicamente en la información de la secuencia de proteínas para determinar la estructura nativa. En este caso de ab initio, los espacios de energía/búsqueda asociados con los modelos de representación conformacional de proteínas son de alta dimensionalidad y rugosos, en modelos atómicos e incluso en modelos de rejilla simplificados de representación de proteínas. Por lo tanto, la investigación ha estado focalizada en el uso de meta-heurísticas para muestrear el vasto espacio conformacional, meta-heurísticas que generalmente se encuentran dentro del campo de la computación bio-inspirada o natural. En esta tesis se utilizó una primera combinación entre la búsqueda global de un algoritmo evolutivo robusto (Evolución Diferencial, Differential Evolution - DE) y técnicas de búsqueda local para el problema de PSP. Esta versión hibrida se definió inicialmente para un modelo de rejilla detallado para la representacióon de proteínas (Face Centered Cubic lattice - FCC). La búsqueda local y voraz definida selecciona, en cada movimiento entre dos aminoácidos consecutivos, el movimiento que minimiza la energía de la conformación de la proteína consiguiente. Esa búsqueda local se puede utilizar para refinar las conformaciones de prueba proporcionadas por los operadores genéticos de DE, así como las conformaciones de la población genética, siguiendo una combinación clásica lamarckiana que puede minimizar el número de evaluaciones de calidad en la búsqueda de soluciones optimizadas (conformaciones de proteínas). A continuación, la combinación anterior se extendió para abordar el mismo problema en un modelo atómico, utilizando la representación de grano grueso del sistema Rosetta, uno de los entornos de software más exitosos para el diseño de proteínas. La extensión del trabajo anterior con el modelo FCC considera la adaptación de la optimización de DE a la nueva representación de proteínas con ángulos diédricos. La técnica de inserción de fragmentos de Rosetta se utilizó para implementar un procedimiento de búsqueda local, técnica que puede refinar localmente los ángulos diédricos de una conformación de proteína. Por lo tanto, con los mismos elementos que en el caso anterior (modelo de rejilla de FCC), la versión híbrida definida sigue las mismas ideas con una combinación lamarckiana entre DE y la búsqueda local. Los resultados con proteínas resueltas del Protein Data Bank muestran que la versión híbrida obtiene conformaciones de menor energía en comparación con trabajos anteriores y con el protocolo Rosetta ab initio y bajo el mismo número de evaluaciones de calidad/energía. Además, la misma versión híbrida de DE se usó para tener en cuenta la información de los mapas de criomicroscopía electrónica (cryo-electron microscopy, cryo-EM). En este caso, la versión híbrida adaptada permite el refinamiento de las conformaciones de proteínas utilizando la información de cryo-EM y para obtener estructuras más cercanas a la nativa. Sin embargo, en los modelos atómicos, puede aparecer un problema cuando el espacio energético es “engañoso”. En el caso de Rosetta, significa que el mínimo global en el espacio de energía de alta dimensionalidad no se corresponde necesariamente con la estructura nativa. Abordamos el problema con una posibilidad en computación evolutiva que no se consideró directamente en esta aplicación. La posibilidad es el uso de métodos de niching en un espacio de energía multimodal, métodos que pueden ubicar a los individuos de la población en las áreas más prometedoras (nichos) del espacio de calidad. Por lo tanto, el algoritmo híbrido DE se combinó con los métodos clásicos de niching en computación evolutiva (crowding, fitness sharing y speciation), con el objetivo de obtener conformaciones de proteínas que correspondan a soluciones en diferentes nichos y con diferentes plegamientos. Los métodos desarrollados permiten obtener soluciones potenciales en las generaciones finales con un conjunto diverso de plegamientos con diferentes distancias (RMSD) a la conformación nativa real. La ´ultima parte de la tesis está relacionada con el proceso de plegado de proteínas y cómo modelarlo desde un enfoque de aprendizaje automático puro. Para el modelado, el proceso de plegado se consideró como un proceso emergente, resultado de las interacciones a través del tiempo entre los componentes de la proteína. Por lo tanto, nos basamos en herramientas clásicas como los autómatas celulares (Cellular Automata - CA) para modelar tal proceso emergente. El conjunto de reglas de un autómata celular cl´asico se extendió ya que se implementó con redes neuronales artificiales (Artificial Neural Networks - ANN), y las ANN se obtuvieron automáticamente mediante un algoritmo evolutivo. Las ANN/CA optimizadas definen los cambios locales en la conformación de una proteína a través del tiempo hasta que se alcanza la conformación final. Los métodos propuestos se implementaron con modelos de rejilla, utilizando nuevamente el modelo FCC detallado y, a continuación, toda la metodología se extendió a la representación atómica de Rosetta de grano grueso. Las limitaciones aparecen en dicho modelado, pero incluso con las simplificaciones y limitaciones encontradas, el trabajo realizado puede considerarse un primer intento de utilizar aprendizaje máquina para obtener automáticamente un modelo del proceso de plegado.

Palabras chave

Proteínas-estructura
Métodos computacionales

Descrición

Programa Oficial de Doctorado en Tecnologías de la Información y las Comunicaciones. 5009V01

Dereitos

Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido