Selección de características para priorización genética mediante aprendizaje automático en entornos de alta dimensionalidad

Fernández Farelo, Rubén

Selección de características para priorización genética mediante aprendizaje automático en entornos de alta dimensionalidad

UDC.coleccion	Traballos académicos
UDC.tipotrab	TFG
UDC.titulacion	Grao en Enxeñaría Informática
dc.contributor.advisor	Paz Ruza, Jorge
dc.contributor.advisor	Alonso-Betanzos, Amparo
dc.contributor.author	Fernández Farelo, Rubén
dc.contributor.other	Universidade da Coruña. Facultade de Informática
dc.date.accessioned	2025-11-07T18:43:55Z
dc.date.available	2025-11-07T18:43:55Z
dc.date.issued	2025-09
dc.description.abstract	[Resumen]: En la priorización génica, uno de los principales retos es trabajar con conjuntos de datos biomédicos de alta dimensionalidad y etiquetado incompleto, donde solo una pequeña fracción de los genes han sido validados como relevantes. Esta situación, habitual en campos como el estudio de la restricción dietética, dificulta la construcción de modelos fiables, al aumentar el riesgo de sobreajuste, sesgo y pérdida de interpretabilidad. Este trabajo propone una solución basada en la selección de características mediante el algoritmo Fast-mRMR, con el objetivo de reducir drásticamente el número de características utilizadas, conservando solo aquellas más relevantes desde el punto de vista biológico. Esto permite construir modelos más simples, interpretables y competitivos, trabajando con menos información pero de mayor calidad. El enfoque parte de un escenario con datos parcialmente etiquetados, donde solo se dispone de ejemplos positivos confirmados, lo que refleja de forma más realista la incertidumbre inherente al problema. Los experimentos realizados sobre múltiples fuentes de datos (GO, PathDIP, GTEx, Coexpression) y sus combinaciones muestran mejoras consistentes frente a enfoques previos. Además, se evalúa el uso de técnicas de PU Learning como complemento.
dc.description.abstract	[Abstract]: In gene prioritization, one of the main challenges lies in handling high-dimensional biomedical datasets with incomplete labeling, where only a small subset of genes is experimentally validated as relevant. This scenario, common in contexts like dietary restriction studies, makes it difficult to build reliable models without introducing bias or overfitting. This work proposes a feature selection approach based on the Fast-mRMR algorithm, aiming to drastically reduce the number of features by retaining only those that are biologically informative. This strategy enables the construction of simpler, more interpretable, and competitive models, working with less data but of higher quality. The approach is based on a partially labeled data scenario, where only confirmed positive examples are available, which more realistically reflects the inherent uncertainty of the problem. Experiments conducted on multiple data sources (GO, PathDIP, GTEx, Coexpression) and their combinations show consistent improvements over previous approaches. Additionally, PU Learning techniques are explored as a complementary component.
dc.description.traballos	Traballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2024/2025
dc.identifier.uri	https://hdl.handle.net/2183/46352
dc.language.iso	spa
dc.rights	Attribution 4.0 International	en
dc.rights.accessRights	open access
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.subject	Aprendizaje automático
dc.subject	Biomedicina
dc.subject	Algoritmo Fast-mRMR
dc.subject	PU Learning
dc.title	Selección de características para priorización genética mediante aprendizaje automático en entornos de alta dimensionalidad
dc.type	bachelor thesis
dspace.entity.type	Publication
relation.isAdvisorOfPublication	c91f7d18-38fb-42b8-8be2-b402a40b10c5
relation.isAdvisorOfPublication	a89f1cad-dbc5-471f-986a-26c021ed4a95
relation.isAdvisorOfPublication.latestForDiscovery	c91f7d18-38fb-42b8-8be2-b402a40b10c5

Files

Original bundle

Now showing 1 - 1 of 1

Name:: FernandezFarelo_Ruben_TFG_2025.pdf
Size:: 1.74 MB
Format:: Adobe Portable Document Format

Download

Collections

Traballos académicos (FIC)