Paralelización de agrupamiento de moléculas de ADN

UDC.coleccionTraballos académicos
UDC.tipotrabTFM
UDC.titulacionMáster Universitario en Computación de Altas Prestacións / High Performance Computing
dc.contributor.advisorGonzález-Domínguez, Jorge
dc.contributor.authorPérez Raña, Ainhoa
dc.contributor.otherUniversidade da Coruña. Facultade de Informática
dc.date.accessioned2026-02-24T09:04:39Z
dc.date.available2026-02-24T09:04:39Z
dc.date.issued2026-02
dc.description.abstract[Resumen]: Gracias a los avances en las tecnologías de secuenciación de ADN los científicos disponen hoy en día de grandes conjuntos de datos genómicos para analizar. Sin embargo, el procesamiento de estos datos puede presentar retos como el manejo de los errores introducidos durante la secuenciación, un proceso especialmente relevante en la genómica del cáncer. Para mitigar este problema, se etiquetan las moléculas de ADN con identificadores moleculares únicos (UMI). No obstante, para poder analizar estos datos etiquetados es necesario llevar a cabo un primer paso de agrupamiento que permita juntar las lecturas provenientes de una misma molécula en el mismo grupo. Calib es una herramienta que permite realizar este agrupamiento sin llevar a cabo un alineamiento previo a un genoma, reduciendo el coste computacional de esta primera fase del análisis. Aunque esta herramienta ya presenta paralelización multihilo el objetivo de este Trabajo de Fin de Máster es desarrollar una aplicación paralela utilizando OpenMP que permita reducir su tiempo de ejecución especialmente cuando se trabaja con grandes datos de entrada. En concreto, se ha adaptado la paralelización existente y se han añadido secciones paralelas en el cuello de botella principal: la fase de escritura del fichero de salida. Los resultados experimentales obtenidos demuestran que la nueva herramienta paralela desarrollada en este trabajo logra reducir de forma notable los tiempos de ejecución, tanto en conjuntos de datos sintéticos de gran tamaño como en conjuntos de datos reales. Estas mejoras confirman que la estrategia de paralelización propuesta resulta efectiva, permitiendo que Calib aproveche de forma más eficiente los recursos de sistemas multinúcleo.
dc.description.abstract[Abstract]: Thanks to advances in DNA sequencing technologies, scientists now have large sets of genomic data to analyze. However, processing this data can present challenges such as dealing with errors introduced during sequencing, a process that is particularly relevant in cancer genomics. To mitigate this problem, DNA molecules are labelled with unique molecular identifiers (UMIs). Nevertheless, in order to analyze these labeled data, it is necessary to first perform a clustering step that allows readings from the same molecule to be grouped together. Calib is a tool that allows this clustering to be performed without prior alignment to a genome, reducing the computational cost of this first phase of analysis. Although this tool already has support for multi-threading, the objective of this Master’s Thesis is to develop a parallel application using OpenMP that reduces its execution time, especially when working with large input datasets. Specifically, the existing parallelization has been adapted, and parallel sections have been added to the main bottleneck: the output file writing phase. The experimental results demonstrate that the new parallel tool developed in this work significantly reduces execution times, both in large synthetic datasets and in real datasets. These improvements confirm that the proposed parallelization strategy is effective, allowing Calib to make more efficient use of multicore system resources.
dc.description.traballosTraballo fin de mestrado (UDC.FIC). Computación de Altas Prestacións / High Performance Computing. Curso 2025/2026
dc.identifier.urihttps://hdl.handle.net/2183/47487
dc.language.isospa
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAgrupamiento
dc.subjectCalib
dc.subjectHPC
dc.subjectMoléculas de ADN
dc.subjectOpenMP
dc.subjectParalelismo
dc.subjectClustering
dc.subjectDNA molecules
dc.subjectParallelism
dc.titleParalelización de agrupamiento de moléculas de ADN
dc.typemaster thesis
dspace.entity.typePublication
relation.isAdvisorOfPublication84d13059-7f4b-4cb5-ac65-0e07a77271f0
relation.isAdvisorOfPublication.latestForDiscovery84d13059-7f4b-4cb5-ac65-0e07a77271f0

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
PerezRana_Ainhoa_TFM_2026.pdf
Size:
602.25 KB
Format:
Adobe Portable Document Format