Selection of models of genomic evolution in High Performance Computing Environments
View/ Open
Use this link to cite
http://hdl.handle.net/2183/16558Collections
- Teses de doutoramento [2165]
Metadata
Show full item recordTitle
Selection of models of genomic evolution in High Performance Computing EnvironmentsAuthor(s)
Directors
López Taboada, GuillermoPosada González, David
Doallo Biempica, Ramón
Date
2015Center/Dept./Entity
Universidade da Coruña. Departamento de Electrónica e SistemasAbstract
[Resumo]
A introducción dM tecnoloxías de sequenciación de nova xeracióo, ou IINext Gene",
tion Seqv.encing" (NGS), representou un notable cambio no campo da filaxenética. A
cantid.ade de información molecular dispoñible está a crecer cada vez máis rápido, propiciando
O desenvolvemento de métodos e fcrramentas de análise máis eficientes. así coma
O USO de técnicas de computación de altas prestacións (HPe) para acelerar as análises. O
campo está a cambiar velozmente da anáUse filaxenética (Le., estudo dun ou un conxunto
reducido de xeos) á filoxenómica (i,e., estudo de centos ou millar~ de xens de xenomas
completos on incomplet~). Moitos métodos filoxenéticos requiren o uso de modelos probabilísticos
de evolución molecular, e é coñecido que o uso dun modelo ou Qutro pode
derivar en diferentes estimacións filoxenéticas. Tanto modelos sub- como sobreparametrizados
presentan desvantaxes en termos de precisión. Polo tanto, existen Cerramentas
populares que Can USO de marcos estadísticos para seleccionar o modelo que mellor se
axusta aos datos, buscando a mellor compromiso entre likelihood (vcrosimilitude) e parametrización.
Esta tese dautara! presenta Q deseño. implementación e evaluación de métodos HPC
para seleccionar o modelo de evolución roáis adecuado, en CQnxunto ca desenvolvementa
de novas Cuncións orientadas 8 facer máis sinxeIa a análise de data; filoxenéticoo. En
particular, extendemos e xeramoo versións paralelas das dúos ferramcntas máis populares
para a selección de modelos de ADN e proteínas, jAfodelTest e P1'OtTest. Ademá.is, esta
tese presenta o deseño, implementación e evaluación de algoritma:; para a análise rápida e
precisa de datos xenómicos. Creamos unha ferramenta incorporando todas estas técnicas,
denominada PartítionTest, delegando a computación principal na librería de análise
filoxenética PLL. Finalmente, fixemos un estudo de simulacións sobre a importancia do
uso de técnicas de selección de modelos en datos xenómicos, e o seu impacto na precisión
ao recuperar os modelos xeradores e, Oláis importante, a árbare de evolución vcrdadeira. [Resumen]
La introducción de las tecnologías de secuenciación de nueva generación, o "Next
Genemtion Sequencingn (NGS), ha representado un notable cambio en el campo de
la filogenética. La cantidad de ilÚormación molecular disponible está creciendo cada
vez más rápido, propiciando el desarrollo de métodos y herramientas de análisis más
eficientm. así como el uso de técnicas de computación de altas prestaciones (HPC) para
acelerar los análisis. El campo e5tá cambiando rápidamente del análisis filogenético (i.e.,
estudio de uno o un conjunto reducido de genes) al filogenómico (i,e., estudio de cientos
O núles de genes de genomas completos o incompletos). Muchos métodos filogenéticos
requieren utilizar modelos probabilísticos de evolución molecular, y es sabido que el
USO de un modelo u otro puede derivar en diferentes estimaciones filogenéticas. Tanto
modelos sub- como sobreparametrizados presentan desventajas en términos de precisión.
Por lo t6llto, existen herramientas populares que hacen uso de marcos estadísticos para
seleccionar el modelo que mejor se ajuste a los datos, buscando el mejor compromiso
entre likelihood (verosimilitud) y parametrización.
Esta tesis doctoral presenta el diseño, implementación y evaluación de métodos HPC
para seleccionar el modelo de evolución más adecuado, conjwltamente con el desarrollo
de nuevas funciones orientadas a facilitar el análisis de datos filogenéticos. En concreto,
hemos extendido y generado versiones paralelas de las dos herramientas más populares
para selección de modelos de ADN y proteínas, jModelTest y ProtTest. Además, esta tesis
presenta el diseño, implementación y evaluación de algoritmos para el análisis rápido y
preciso de datos genómicos. Hemos creado una herramienta incorporando todas estas
técnicas, denominada PartitionTest, delegando la computación principal en la librería
de análisis filogenético PLL. Finalmente, hemos hecho un estudio de simulaciones sobre
la importancia del uso de técnicas de selección de modelos en datos genómicos, y su
impacto en la precisión al recuperar los modelos generadores y, más importante, el árbol
de evolución verdadero. [Abstract]
The irruption of Next-Generation Scquencing (NGS) technologies has changed
dramatically the landscape of phylogeneties. The avallable molecular data keeps
growing faster and faster, prompting tbe development of more efficient analytical
methods and tooL., as well as the use of Higb Pcrformance Computing (HPC)
techniques for spceding-up the analyses. The tield is rapidly changing from phylogeneties
(i.e., the study of a single or " few genes) to phylogenomies (i.e., the
study of hundreds or thousands of genes from incomplete or complete genomes).
Mwy phylogenetic methods require the use of probabilistic models of molecular
evolution, and it is well known that the use of dilferent models may lcad to different
phylogenetic estimates. Both under- and overparameterized models present
disadvantages in terms of accuracy. Therefore, there are popular tools that employ
statistical frameworks for selecting tbe most suitable model of evolution for the
data, tinding the best trade-off among likelihood and parametcrization.
This PhD thesis presents the design, implementation and evaluation of HPC
methods for selecting the best-fit model of evolutioll, together with improved features
that facilitate the analysis of single-gene data. In particular, we extended and
generated parallel versions of the two most popular tools for selecting the hest-fit
model of evolution far DNA and proteins, jModelTes1 and ProtTest. FUrthennore,
this thesis presents the design, implemcntation and evalllation of algorithms
for fast and accurate analysis of mlllti-gene data. We created a tool incorporating
all these techniques, called Partilion Test, delegating the core computations to the
Phylogenetic Likelihood Library (PLL). Finally, we made a simulation study on
the importance of lIsing model selection techniqlles on multi-gene data, and its impact
on the accuracy retrieving the true generating models and, most important,
the tme phylogenies.
Keywords
Filogénesis-Métodos estadísticos
Supercomputación
Genómica-Informática
Secuencia nucleotídica-Métodos estadísticos
Supercomputación
Genómica-Informática
Secuencia nucleotídica-Métodos estadísticos
Rights
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido