Selection of models of genomic evolution in High Performance Computing Environments

Darriba, Diego

Title

Author(s)

Darriba, Diego

Directors

López Taboada, Guillermo
Posada González, David
Doallo Biempica, Ramón

Date

2015

Center/Dept./Entity

Universidade da Coruña. Departamento de Electrónica e Sistemas

Abstract

[Resumo] A introducción dM tecnoloxías de sequenciación de nova xeracióo, ou IINext Gene", tion Seqv.encing" (NGS), representou un notable cambio no campo da filaxenética. A cantid.ade de información molecular dispoñible está a crecer cada vez máis rápido, propiciando O desenvolvemento de métodos e fcrramentas de análise máis eficientes. así coma O USO de técnicas de computación de altas prestacións (HPe) para acelerar as análises. O campo está a cambiar velozmente da anáUse filaxenética (Le., estudo dun ou un conxunto reducido de xeos) á filoxenómica (i,e., estudo de centos ou millar~ de xens de xenomas completos on incomplet~). Moitos métodos filoxenéticos requiren o uso de modelos probabilísticos de evolución molecular, e é coñecido que o uso dun modelo ou Qutro pode derivar en diferentes estimacións filoxenéticas. Tanto modelos sub- como sobreparametrizados presentan desvantaxes en termos de precisión. Polo tanto, existen Cerramentas populares que Can USO de marcos estadísticos para seleccionar o modelo que mellor se axusta aos datos, buscando a mellor compromiso entre likelihood (vcrosimilitude) e parametrización. Esta tese dautara! presenta Q deseño. implementación e evaluación de métodos HPC para seleccionar o modelo de evolución roáis adecuado, en CQnxunto ca desenvolvementa de novas Cuncións orientadas 8 facer máis sinxeIa a análise de data; filoxenéticoo. En particular, extendemos e xeramoo versións paralelas das dúos ferramcntas máis populares para a selección de modelos de ADN e proteínas, jAfodelTest e P1'OtTest. Ademá.is, esta tese presenta o deseño, implementación e evaluación de algoritma:; para a análise rápida e precisa de datos xenómicos. Creamos unha ferramenta incorporando todas estas técnicas, denominada PartítionTest, delegando a computación principal na librería de análise filoxenética PLL. Finalmente, fixemos un estudo de simulacións sobre a importancia do uso de técnicas de selección de modelos en datos xenómicos, e o seu impacto na precisión ao recuperar os modelos xeradores e, Oláis importante, a árbare de evolución vcrdadeira.

[Resumen] La introducción de las tecnologías de secuenciación de nueva generación, o "Next Genemtion Sequencingn (NGS), ha representado un notable cambio en el campo de la filogenética. La cantidad de ilÚormación molecular disponible está creciendo cada vez más rápido, propiciando el desarrollo de métodos y herramientas de análisis más eficientm. así como el uso de técnicas de computación de altas prestaciones (HPC) para acelerar los análisis. El campo e5tá cambiando rápidamente del análisis filogenético (i.e., estudio de uno o un conjunto reducido de genes) al filogenómico (i,e., estudio de cientos O núles de genes de genomas completos o incompletos). Muchos métodos filogenéticos requieren utilizar modelos probabilísticos de evolución molecular, y es sabido que el USO de un modelo u otro puede derivar en diferentes estimaciones filogenéticas. Tanto modelos sub- como sobreparametrizados presentan desventajas en términos de precisión. Por lo t6llto, existen herramientas populares que hacen uso de marcos estadísticos para seleccionar el modelo que mejor se ajuste a los datos, buscando el mejor compromiso entre likelihood (verosimilitud) y parametrización. Esta tesis doctoral presenta el diseño, implementación y evaluación de métodos HPC para seleccionar el modelo de evolución más adecuado, conjwltamente con el desarrollo de nuevas funciones orientadas a facilitar el análisis de datos filogenéticos. En concreto, hemos extendido y generado versiones paralelas de las dos herramientas más populares para selección de modelos de ADN y proteínas, jModelTest y ProtTest. Además, esta tesis presenta el diseño, implementación y evaluación de algoritmos para el análisis rápido y preciso de datos genómicos. Hemos creado una herramienta incorporando todas estas técnicas, denominada PartitionTest, delegando la computación principal en la librería de análisis filogenético PLL. Finalmente, hemos hecho un estudio de simulaciones sobre la importancia del uso de técnicas de selección de modelos en datos genómicos, y su impacto en la precisión al recuperar los modelos generadores y, más importante, el árbol de evolución verdadero.

[Abstract] The irruption of Next-Generation Scquencing (NGS) technologies has changed dramatically the landscape of phylogeneties. The avallable molecular data keeps growing faster and faster, prompting tbe development of more efficient analytical methods and tooL., as well as the use of Higb Pcrformance Computing (HPC) techniques for spceding-up the analyses. The tield is rapidly changing from phylogeneties (i.e., the study of a single or " few genes) to phylogenomies (i.e., the study of hundreds or thousands of genes from incomplete or complete genomes). Mwy phylogenetic methods require the use of probabilistic models of molecular evolution, and it is well known that the use of dilferent models may lcad to different phylogenetic estimates. Both under- and overparameterized models present disadvantages in terms of accuracy. Therefore, there are popular tools that employ statistical frameworks for selecting tbe most suitable model of evolution for the data, tinding the best trade-off among likelihood and parametcrization. This PhD thesis presents the design, implementation and evaluation of HPC methods for selecting the best-fit model of evolutioll, together with improved features that facilitate the analysis of single-gene data. In particular, we extended and generated parallel versions of the two most popular tools for selecting the hest-fit model of evolution far DNA and proteins, jModelTes1 and ProtTest. FUrthennore, this thesis presents the design, implemcntation and evalllation of algorithms for fast and accurate analysis of mlllti-gene data. We created a tool incorporating all these techniques, called Partilion Test, delegating the core computations to the Phylogenetic Likelihood Library (PLL). Finally, we made a simulation study on the importance of lIsing model selection techniqlles on multi-gene data, and its impact on the accuracy retrieving the true generating models and, most important, the tme phylogenies.

Keywords

Filogénesis-Métodos estadísticos
Supercomputación
Genómica-Informática
Secuencia nucleotídica-Métodos estadísticos

Rights

Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido