Skip navigation
  •  Home
  • UDC 
    • Getting started
    • RUC Policies
    • FAQ
    • FAQ on Copyright
    • More information at INFOguias UDC
  • Browse 
    • Communities
    • Browse by:
    • Issue Date
    • Author
    • Title
    • Subject
  • Help
    • español
    • Gallegan
    • English
  • Login
  •  English 
    • Español
    • Galego
    • English
  
View Item 
  •   DSpace Home
  • Facultade de Informática
  • Traballos académicos (FIC)
  • View Item
  •   DSpace Home
  • Facultade de Informática
  • Traballos académicos (FIC)
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

SeQual-Stream: Herramienta de control de calidad de secuencias genéticas en un entorno Big Data mediante procesamiento en streaming

Thumbnail
View/Open
CastellanosRodriguez_Oscar_TFG_2021.pdf (2.680Mb)
Use this link to cite
http://hdl.handle.net/2183/29635
Atribución-NoComercial-SinDerivadas 3.0 España
Except where otherwise noted, this item's license is described as Atribución-NoComercial-SinDerivadas 3.0 España
Collections
  • Traballos académicos (FIC) [715]
Metadata
Show full item record
Title
SeQual-Stream: Herramienta de control de calidad de secuencias genéticas en un entorno Big Data mediante procesamiento en streaming
Author(s)
Castellanos Rodríguez, Óscar
Directors
Touriño, Juan
Date
2021
Center/Dept./Entity
Enxeñaría informática, Grao en
Description
Traballo fin de grao. Enxeñaría Informática. Curso 2020/2021
Abstract
[Resumen] Este Trabajo de Fin de Grado (TFG) presenta la implementación de SeQual-Stream, una herramienta paralela derivada de SeQual que permite realizar controles de calidad sobre conjuntosde datos genómicos de forma escalable. Está orientada al procesamiento de conjuntos de datos masivos en entornos distribuidos, utilizando para ello el framework Big Data Apache Spark y HDFS como sistema de ficheros distribuido. SeQual-Stream adapta este procesamiento para realizarlo en modo streaming, a medida que se descargan los datos desde Internet y/o se copian a HDFS, acelerando los tiempos de ejecución al no necesitar esperar a tener completo el conjunto de datos de entrada para empezar su procesamiento. La herramienta permite procesar conjuntos de datos genómicos aplicando operaciones que procesan cada secuencia de forma individual, incluyendo filtros individuales, recortadores y formateadores. Durante su desarrollo se siguió una metodología iterativa incremental, consistente en repartir el desarrollo de la aplicación en diferentes incrementos en los que se añaden nuevas funcionalidades o se mejoran las existentes. Para analizar la mejora obtenida respecto a SeQual, se realizó una evaluación experimental en un entorno clúster de altas prestaciones, comparando sus tiempos de ejecución con diferentes operaciones, número de nodos y conjuntos de datos de tamaño significativo. SeQual-Stream se encuentra disponible públicamente en el siguiente repositorio Git bajo una licencia GNU GPL: https://github.com/oscar-castellanos/SeQual-Stream.
 
[Abstract] This BSc Thesis presents the implementation of SeQual-Stream, a parallel tool derived from SeQual that allows performing quality controls on genomic datasets in a scalable way. It is oriented to process massive datasets in distributed environments, using the Big Data framework Apache Spark and HDFS as distributed file system. SeQual-Stream adapts this processing to perform it in streaming mode, as data is downloaded from the Internet and/or copied to HDFS, speeding up runtimes by not having to wait until the input dataset is complete to start processing. The tool allows processing genomic datasets by applying operations that process each sequence individually, including individual filters, trimmers and formatters. During its development, an incremental iterative methodology was followed, consisting of distributing the development of the application in different increments in which new functionalities are added or existing ones are improved. In order to analyze the improvement obtained with respect to SeQual, an experimental evaluation was carried out on a high-performance cluster environment, comparing their execution times with different operations, number of nodes and datasets of significant size. SeQual-Stream is publicly available at the following Git repository under a GNU GPL license: https://github.com/oscar-castellanos/SeQual-Stream.
 
Keywords
Secuenciación de Nueva Generación (NGS)
Big Data
Apache Spark
HDFS
Streaming estructurado de Spark
 
Rights
Atribución-NoComercial-SinDerivadas 3.0 España

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsResearch GroupAcademic DegreeThis CollectionBy Issue DateAuthorsTitlesSubjectsResearch GroupAcademic Degree

My Account

LoginRegister

Statistics

View Usage Statistics
Sherpa
OpenArchives
OAIster
Scholar Google
UNIVERSIDADE DA CORUÑA. Servizo de Biblioteca.    DSpace Software Copyright © 2002-2013 Duraspace - Send Feedback