Skip navigation
  •  Inicio
  • UDC 
    • Cómo depositar
    • Políticas del RUC
    • FAQ
    • Derechos de autor
    • Más información en INFOguías UDC
  • Listar 
    • Comunidades
    • Buscar por:
    • Fecha de publicación
    • Autor
    • Título
    • Materia
  • Ayuda
    • español
    • Gallegan
    • English
  • Acceder
  •  Español 
    • Español
    • Galego
    • English
  
Ver ítem 
  •   RUC
  • Facultade de Informática
  • Traballos académicos (FIC)
  • Ver ítem
  •   RUC
  • Facultade de Informática
  • Traballos académicos (FIC)
  • Ver ítem
JavaScript is disabled for your browser. Some features of this site may not work without it.

SeQual-Stream: Herramienta de control de calidad de secuencias genéticas en un entorno Big Data mediante procesamiento en streaming

Thumbnail
Ver/Abrir
CastellanosRodriguez_Oscar_TFG_2021.pdf (2.680Mb)
Use este enlace para citar
http://hdl.handle.net/2183/29635
Atribución-NoComercial-SinDerivadas 3.0 España
Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución-NoComercial-SinDerivadas 3.0 España
Colecciones
  • Traballos académicos (FIC) [715]
Metadatos
Mostrar el registro completo del ítem
Título
SeQual-Stream: Herramienta de control de calidad de secuencias genéticas en un entorno Big Data mediante procesamiento en streaming
Autor(es)
Castellanos Rodríguez, Óscar
Directores
Touriño, Juan
Fecha
2021
Centro/Dpto/Entidad
Enxeñaría informática, Grao en
Descripción
Traballo fin de grao. Enxeñaría Informática. Curso 2020/2021
Resumen
[Resumen] Este Trabajo de Fin de Grado (TFG) presenta la implementación de SeQual-Stream, una herramienta paralela derivada de SeQual que permite realizar controles de calidad sobre conjuntosde datos genómicos de forma escalable. Está orientada al procesamiento de conjuntos de datos masivos en entornos distribuidos, utilizando para ello el framework Big Data Apache Spark y HDFS como sistema de ficheros distribuido. SeQual-Stream adapta este procesamiento para realizarlo en modo streaming, a medida que se descargan los datos desde Internet y/o se copian a HDFS, acelerando los tiempos de ejecución al no necesitar esperar a tener completo el conjunto de datos de entrada para empezar su procesamiento. La herramienta permite procesar conjuntos de datos genómicos aplicando operaciones que procesan cada secuencia de forma individual, incluyendo filtros individuales, recortadores y formateadores. Durante su desarrollo se siguió una metodología iterativa incremental, consistente en repartir el desarrollo de la aplicación en diferentes incrementos en los que se añaden nuevas funcionalidades o se mejoran las existentes. Para analizar la mejora obtenida respecto a SeQual, se realizó una evaluación experimental en un entorno clúster de altas prestaciones, comparando sus tiempos de ejecución con diferentes operaciones, número de nodos y conjuntos de datos de tamaño significativo. SeQual-Stream se encuentra disponible públicamente en el siguiente repositorio Git bajo una licencia GNU GPL: https://github.com/oscar-castellanos/SeQual-Stream.
 
[Abstract] This BSc Thesis presents the implementation of SeQual-Stream, a parallel tool derived from SeQual that allows performing quality controls on genomic datasets in a scalable way. It is oriented to process massive datasets in distributed environments, using the Big Data framework Apache Spark and HDFS as distributed file system. SeQual-Stream adapts this processing to perform it in streaming mode, as data is downloaded from the Internet and/or copied to HDFS, speeding up runtimes by not having to wait until the input dataset is complete to start processing. The tool allows processing genomic datasets by applying operations that process each sequence individually, including individual filters, trimmers and formatters. During its development, an incremental iterative methodology was followed, consisting of distributing the development of the application in different increments in which new functionalities are added or existing ones are improved. In order to analyze the improvement obtained with respect to SeQual, an experimental evaluation was carried out on a high-performance cluster environment, comparing their execution times with different operations, number of nodes and datasets of significant size. SeQual-Stream is publicly available at the following Git repository under a GNU GPL license: https://github.com/oscar-castellanos/SeQual-Stream.
 
Palabras clave
Secuenciación de Nueva Generación (NGS)
Big Data
Apache Spark
HDFS
Streaming estructurado de Spark
 
Derechos
Atribución-NoComercial-SinDerivadas 3.0 España

Listar

Todo RUCComunidades & ColeccionesPor fecha de publicaciónAutoresTítulosMateriasGrupo de InvestigaciónTitulaciónEsta colecciónPor fecha de publicaciónAutoresTítulosMateriasGrupo de InvestigaciónTitulación

Mi cuenta

AccederRegistro

Estadísticas

Ver Estadísticas de uso
Sherpa
OpenArchives
OAIster
Scholar Google
UNIVERSIDADE DA CORUÑA. Servizo de Biblioteca.    DSpace Software Copyright © 2002-2013 Duraspace - Sugerencias