Evolutionary computation methods for protein structure prediction and for the computational modeling of the protein folding process
Use este enlace para citar
http://hdl.handle.net/2183/24458Coleccións
- Teses de doutoramento [2150]
Metadatos
Mostrar o rexistro completo do ítemTítulo
Evolutionary computation methods for protein structure prediction and for the computational modeling of the protein folding processTítulo(s) alternativo(s)
Métodos de computación evolutiva para la predicción de la estructura de proteínas y para la modelización computacional del proceso de plegado de proteínasAutor(es)
Director(es)
Santos Reyes, JoséData
2019Resumo
[Abstract] This thesis was focused on the use of hybrid evolutionary computation methods
for the Protein Structure Prediction (PSP) problem, as well as a first
attempt to model protein folding with machine learning, using again evolutionary
computation as an optimization method to infer the folding model.
Given the increasing sequence/structure gap in protein knowledge, the
computational methods of PSP are crucial to tackle the problem. The work
developed in this thesis is included in the “ab initio” prediction, which is the
most challenging since it relies only on the information of the protein sequence
to determine the native structure. In this case of ab initio, the energy landscapes/
search spaces associated with protein conformational representation
models are high dimensional and rugged, in atomic models and even in simplified
lattice models of protein representation. Therefore, the research has been
focused on the use of metaheuristics in order to sample the vast conformational
space, metaheuristics which usually are included in the bio-inspired or natural
computation field.
In this thesis a first combination between the global search of a robust evolutionary
algorithm (Differential Evolution - DE) and local search techniques
was used for the PSP problem. This hybrid version was initially defined for
a detailed lattice model for protein representation (Face Centered Cubic lattice
- FCC). The defined local greedy search selects, in each move between
two consecutive amino acids, the move that minimizes the energy of the consequent
protein conformation. That local search can be used to refine the trial
conformations provided by the DE genetic operators as well as the conformations
of the genetic population, following a classic Lamarckian combination
that can minimize the number of fitness evaluations in the search for optimized
solutions (protein conformations).
Next, the previous combination was extended to tackle the same problem
in an atomic model, using the coarse-grained representation of the Rosetta
system, one of the most successful software environments for protein design.
The extension of the previous work with the FCC model considers the adaptation
of the DE optimization to the new protein representation with dihedral
angles. The Rosetta’s fragment insertion technique was used to implement a
local search procedure, technique which can locally refine the dihedral angles
of a protein conformation. Therefore, with the same elements as in the previous
case (FCC lattice model), the defined hybrid version follows the same
ideas with a Lamarckian combination between DE and the local search. The
results with resolved proteins from the Protein Data Bank show that the hybrid version obtains lower energy conformations in comparison with previous
works and with Rosetta ab initio protocol and under the same number of
fitness/energy evaluations. Moreover, the same hybrid DE version was used
to take into account the information of cryo-electron microscopy (cryo-EM)
maps. In this case, the adapted hybrid version allows the refinement of protein
conformations using the information of cryo-EM and in order to obtain
closer structures to the native one.
Nevertheless, in atomic models, a problem can appear when the energy
landscape is deceptive. In the Rosetta case, it means that the global minimum
in the high dimensional energy landscape does not necessarily correspond to
the native structure. We approach the problem with a possibility in evolutionary
computation that was not directly considered in this application.
The possibility is the use of niching methods in a multimodal energy landscape,
methods that can locate the individuals of the population in the most
promising areas (niches) of the fitness landscape. Thus, the hybrid DE algorithm
was combined with classic evolutionary computation niching methods
(crowding, fitness sharing and speciation), with the aim of obtaining protein
conformations that correspond to decoys in different niches and with different
folds. The developed methods allow obtaining potential solutions at the final
generations with a diverse set of folds with different distances (RMSD) from
the real native conformation.
The last part of the thesis is related to the protein folding process and how
to model it from a pure machine learning approach. For the modeling, the
folding process was considered as an emergent process, result of the interactions
through time between the protein components. Therefore, we relied on
classic tools like Cellular Automata (CA) to model such an emergent process.
The classic CA rule set was extended since it was implemented with Artificial
Neural Networks (ANNs), and the ANNs were automatically obtained by an
evolutionary algorithm. The optimized CA/ANNs define the local changes
in a protein conformation through time until a final conformation is reached.
The proposed methods were implemented with lattice models, using again
the detailed FCC model and, next, all the methodology was extended to the
coarse-grained atomic representation of Rosetta. Limitations appear in such
a modeling, but even with the simplifications and limitations found, the work
performed can be considered a first attempt of using machine learning to automatically
obtain a model of the folding process. [Resumen]Esta tesis se centró en el uso de métodos híbridos de computación evolutiva
para el problema de predicción de la estructura de proteínas (Protein Structure
Prediction - PSP), así como un primer intento de modelar el plegado
de proteínas con aprendizaje automático, utilizando nuevamente computación
evolutiva como método de optimización para inferir el modelo de plegado.
Dada la creciente brecha de secuencia/estructura en el conocimiento de las
proteínas, los métodos computacionales de PSP son cruciales para abordar
el problema. El trabajo desarrollado en esta tesis se incluye dentro de la
predicción “ab initio”, que es la más desafiante ya que se basa únicamente
en la información de la secuencia de proteínas para determinar la estructura
nativa. En este caso de ab initio, los espacios de energía/búsqueda asociados
con los modelos de representación conformacional de proteínas son de alta
dimensionalidad y rugosos, en modelos atómicos e incluso en modelos de rejilla
simplificados de representación de proteínas. Por lo tanto, la investigación ha
estado focalizada en el uso de meta-heurísticas para muestrear el vasto espacio
conformacional, meta-heurísticas que generalmente se encuentran dentro del
campo de la computación bio-inspirada o natural.
En esta tesis se utilizó una primera combinación entre la búsqueda global
de un algoritmo evolutivo robusto (Evolución Diferencial, Differential Evolution
- DE) y técnicas de búsqueda local para el problema de PSP. Esta versión
hibrida se definió inicialmente para un modelo de rejilla detallado para la representacióon de proteínas (Face Centered Cubic lattice - FCC). La búsqueda
local y voraz definida selecciona, en cada movimiento entre dos aminoácidos
consecutivos, el movimiento que minimiza la energía de la conformación de la
proteína consiguiente. Esa búsqueda local se puede utilizar para refinar las conformaciones
de prueba proporcionadas por los operadores genéticos de DE, así
como las conformaciones de la población genética, siguiendo una combinación
clásica lamarckiana que puede minimizar el número de evaluaciones de calidad
en la búsqueda de soluciones optimizadas (conformaciones de proteínas).
A continuación, la combinación anterior se extendió para abordar el mismo
problema en un modelo atómico, utilizando la representación de grano grueso
del sistema Rosetta, uno de los entornos de software más exitosos para el
diseño de proteínas. La extensión del trabajo anterior con el modelo FCC
considera la adaptación de la optimización de DE a la nueva representación
de proteínas con ángulos diédricos. La técnica de inserción de fragmentos
de Rosetta se utilizó para implementar un procedimiento de búsqueda local,
técnica que puede refinar localmente los ángulos diédricos de una conformación
de proteína. Por lo tanto, con los mismos elementos que en el caso anterior
(modelo de rejilla de FCC), la versión híbrida definida sigue las mismas ideas
con una combinación lamarckiana entre DE y la búsqueda local. Los resultados
con proteínas resueltas del Protein Data Bank muestran que la versión
híbrida obtiene conformaciones de menor energía en comparación con trabajos
anteriores y con el protocolo Rosetta ab initio y bajo el mismo número de evaluaciones
de calidad/energía. Además, la misma versión híbrida de DE se usó
para tener en cuenta la información de los mapas de criomicroscopía electrónica
(cryo-electron microscopy, cryo-EM). En este caso, la versión híbrida adaptada
permite el refinamiento de las conformaciones de proteínas utilizando la información de cryo-EM y para obtener estructuras más cercanas a la nativa.
Sin embargo, en los modelos atómicos, puede aparecer un problema cuando
el espacio energético es “engañoso”. En el caso de Rosetta, significa que el
mínimo global en el espacio de energía de alta dimensionalidad no se corresponde
necesariamente con la estructura nativa. Abordamos el problema con
una posibilidad en computación evolutiva que no se consideró directamente
en esta aplicación. La posibilidad es el uso de métodos de niching en un espacio
de energía multimodal, métodos que pueden ubicar a los individuos de
la población en las áreas más prometedoras (nichos) del espacio de calidad.
Por lo tanto, el algoritmo híbrido DE se combinó con los métodos clásicos
de niching en computación evolutiva (crowding, fitness sharing y speciation),
con el objetivo de obtener conformaciones de proteínas que correspondan a
soluciones en diferentes nichos y con diferentes plegamientos. Los métodos desarrollados
permiten obtener soluciones potenciales en las generaciones finales
con un conjunto diverso de plegamientos con diferentes distancias (RMSD) a
la conformación nativa real.
La ´ultima parte de la tesis está relacionada con el proceso de plegado de
proteínas y cómo modelarlo desde un enfoque de aprendizaje automático puro.
Para el modelado, el proceso de plegado se consideró como un proceso emergente,
resultado de las interacciones a través del tiempo entre los componentes
de la proteína. Por lo tanto, nos basamos en herramientas clásicas como los
autómatas celulares (Cellular Automata - CA) para modelar tal proceso emergente.
El conjunto de reglas de un autómata celular cl´asico se extendió ya que
se implementó con redes neuronales artificiales (Artificial Neural Networks -
ANN), y las ANN se obtuvieron automáticamente mediante un algoritmo evolutivo.
Las ANN/CA optimizadas definen los cambios locales en la conformación de una proteína a través del tiempo hasta que se alcanza la conformación
final. Los métodos propuestos se implementaron con modelos de rejilla, utilizando
nuevamente el modelo FCC detallado y, a continuación, toda la metodología se extendió a la representación atómica de Rosetta de grano grueso.
Las limitaciones aparecen en dicho modelado, pero incluso con las simplificaciones
y limitaciones encontradas, el trabajo realizado puede considerarse un
primer intento de utilizar aprendizaje máquina para obtener automáticamente
un modelo del proceso de plegado.
Palabras chave
Proteínas-estructura
Métodos computacionales
Métodos computacionales
Descrición
Programa Oficial de Doctorado en Tecnologías de la Información y las Comunicaciones. 5009V01
Dereitos
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido