Listar por tema "Apache Hadoop"

Distributed Fast Self-Organized Maps for Massive Spectrophotometric Data Analysis

Dafonte, Carlos; Garabato, D.; Álvarez, M. A.; Manteiga, Minia (MDPI AG, 2018-05-03)

[Abstract] Analyzing huge amounts of data becomes essential in the era of Big Data, where databases are populated with hundreds of Gigabytes that must be processed to extract knowledge. Hence, classical algorithms must be ...

Distributed Fast Self-Organized Maps for Massive Spectrophotometric Data Analysis

Dafonte, Carlos; Garabato, D.; Álvarez, M. A.; Manteiga, Minia (MDPI, 2018-11)

[Abstract]: Analyzing huge amounts of data becomes essential in the era of Big Data, where databases are populated with hundreds of Gigabytes that must be processed to extract knowledge. Hence, classical algorithms must ...

MarDRe: efficient MapReduce-based removal of duplicate DNA reads in the cloud

Expósito, Roberto R.; Veiga, Jorge; González-Domínguez, Jorge; Touriño, Juan (Oxford University Press, 2017)

[Abstract] This article presents MarDRe, a de novo cloud-ready duplicate and near-duplicate removal tool that can process single- and paired-end reads from FASTQ/FASTA datasets. MarDRe takes advantage of the widely adopted ...

RGen: Data Generator for Benchmarking Big Data Workloads

Pérez-Jove, Rubén; Expósito, Roberto R.; Touriño, Juan (MDPI, 2021)

[Abstract] This paper presents RGen, a parallel data generator for benchmarking Big Data workloads, which integrates existing features and new functionalities in a standalone tool. The main functionalities developed in ...

RGen: Generador de datos para benchmarking de cargas de trabajo Big Data

Pérez-Jove, Rubén (2020-09)

[Resumen] El presente Trabajo Fin de Grado (TFG) presenta el diseño e implementación de RGen, un generador de datos paralelo para el benchmarking de cargas de trabajo Big Data. La herramienta está desarrollada en Java ...

SparkEC: Reingeniería y optimización de una herramienta Big Data para la corrección de errores en conjuntos de datos genéticos

Martínez-Sánchez, Marco (2020)

[Resumen] Con el presente Trabajo de Fin de Grado (TFG) se plantea el rediseño y reimplementación de la herramienta paralela CloudEC con el objetivo último de obtener una mejora de su rendimiento en entornos clúster. ...