Mostrar o rexistro simple do ítem

dc.contributor.advisorTouriño, Juan
dc.contributor.authorCastellanos Rodríguez, Óscar
dc.contributor.otherEnxeñaría informática, Grao enes_ES
dc.date.accessioned2022-02-04T16:21:51Z
dc.date.available2022-02-04T16:21:51Z
dc.date.issued2021
dc.identifier.urihttp://hdl.handle.net/2183/29635
dc.description.abstract[Resumen] Este Trabajo de Fin de Grado (TFG) presenta la implementación de SeQual-Stream, una herramienta paralela derivada de SeQual que permite realizar controles de calidad sobre conjuntosde datos genómicos de forma escalable. Está orientada al procesamiento de conjuntos de datos masivos en entornos distribuidos, utilizando para ello el framework Big Data Apache Spark y HDFS como sistema de ficheros distribuido. SeQual-Stream adapta este procesamiento para realizarlo en modo streaming, a medida que se descargan los datos desde Internet y/o se copian a HDFS, acelerando los tiempos de ejecución al no necesitar esperar a tener completo el conjunto de datos de entrada para empezar su procesamiento. La herramienta permite procesar conjuntos de datos genómicos aplicando operaciones que procesan cada secuencia de forma individual, incluyendo filtros individuales, recortadores y formateadores. Durante su desarrollo se siguió una metodología iterativa incremental, consistente en repartir el desarrollo de la aplicación en diferentes incrementos en los que se añaden nuevas funcionalidades o se mejoran las existentes. Para analizar la mejora obtenida respecto a SeQual, se realizó una evaluación experimental en un entorno clúster de altas prestaciones, comparando sus tiempos de ejecución con diferentes operaciones, número de nodos y conjuntos de datos de tamaño significativo. SeQual-Stream se encuentra disponible públicamente en el siguiente repositorio Git bajo una licencia GNU GPL: https://github.com/oscar-castellanos/SeQual-Stream.es_ES
dc.description.abstract[Abstract] This BSc Thesis presents the implementation of SeQual-Stream, a parallel tool derived from SeQual that allows performing quality controls on genomic datasets in a scalable way. It is oriented to process massive datasets in distributed environments, using the Big Data framework Apache Spark and HDFS as distributed file system. SeQual-Stream adapts this processing to perform it in streaming mode, as data is downloaded from the Internet and/or copied to HDFS, speeding up runtimes by not having to wait until the input dataset is complete to start processing. The tool allows processing genomic datasets by applying operations that process each sequence individually, including individual filters, trimmers and formatters. During its development, an incremental iterative methodology was followed, consisting of distributing the development of the application in different increments in which new functionalities are added or existing ones are improved. In order to analyze the improvement obtained with respect to SeQual, an experimental evaluation was carried out on a high-performance cluster environment, comparing their execution times with different operations, number of nodes and datasets of significant size. SeQual-Stream is publicly available at the following Git repository under a GNU GPL license: https://github.com/oscar-castellanos/SeQual-Stream.es_ES
dc.language.isospaes_ES
dc.rightsAtribución-NoComercial-SinDerivadas 3.0 Españaes_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/*
dc.subjectSecuenciación de Nueva Generación (NGS)es_ES
dc.subjectBig Dataes_ES
dc.subjectApache Sparkes_ES
dc.subjectHDFSes_ES
dc.subjectStreaming estructurado de Sparkes_ES
dc.titleSeQual-Stream: Herramienta de control de calidad de secuencias genéticas en un entorno Big Data mediante procesamiento en streaminges_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.rights.accessinfo:eu-repo/semantics/openAccesses_ES
dc.description.traballosTraballo fin de grao. Enxeñaría Informática. Curso 2020/2021es_ES


Ficheiros no ítem

Thumbnail
Thumbnail

Este ítem aparece na(s) seguinte(s) colección(s)

Mostrar o rexistro simple do ítem