Selección de características para priorización genética mediante aprendizaje automático en entornos de alta dimensionalidad

UDC.coleccionTraballos académicos
UDC.tipotrabTFG
UDC.titulacionGrao en Enxeñaría Informática
dc.contributor.advisorPaz Ruza, Jorge
dc.contributor.advisorAlonso-Betanzos, Amparo
dc.contributor.authorFernández Farelo, Rubén
dc.contributor.otherUniversidade da Coruña. Facultade de Informática
dc.date.accessioned2025-11-07T18:43:55Z
dc.date.available2025-11-07T18:43:55Z
dc.date.issued2025-09
dc.description.abstract[Resumen]: En la priorización génica, uno de los principales retos es trabajar con conjuntos de datos biomédicos de alta dimensionalidad y etiquetado incompleto, donde solo una pequeña fracción de los genes han sido validados como relevantes. Esta situación, habitual en campos como el estudio de la restricción dietética, dificulta la construcción de modelos fiables, al aumentar el riesgo de sobreajuste, sesgo y pérdida de interpretabilidad. Este trabajo propone una solución basada en la selección de características mediante el algoritmo Fast-mRMR, con el objetivo de reducir drásticamente el número de características utilizadas, conservando solo aquellas más relevantes desde el punto de vista biológico. Esto permite construir modelos más simples, interpretables y competitivos, trabajando con menos información pero de mayor calidad. El enfoque parte de un escenario con datos parcialmente etiquetados, donde solo se dispone de ejemplos positivos confirmados, lo que refleja de forma más realista la incertidumbre inherente al problema. Los experimentos realizados sobre múltiples fuentes de datos (GO, PathDIP, GTEx, Coexpression) y sus combinaciones muestran mejoras consistentes frente a enfoques previos. Además, se evalúa el uso de técnicas de PU Learning como complemento.
dc.description.abstract[Abstract]: In gene prioritization, one of the main challenges lies in handling high-dimensional biomedical datasets with incomplete labeling, where only a small subset of genes is experimentally validated as relevant. This scenario, common in contexts like dietary restriction studies, makes it difficult to build reliable models without introducing bias or overfitting. This work proposes a feature selection approach based on the Fast-mRMR algorithm, aiming to drastically reduce the number of features by retaining only those that are biologically informative. This strategy enables the construction of simpler, more interpretable, and competitive models, working with less data but of higher quality. The approach is based on a partially labeled data scenario, where only confirmed positive examples are available, which more realistically reflects the inherent uncertainty of the problem. Experiments conducted on multiple data sources (GO, PathDIP, GTEx, Coexpression) and their combinations show consistent improvements over previous approaches. Additionally, PU Learning techniques are explored as a complementary component.
dc.description.traballosTraballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2024/2025
dc.identifier.urihttps://hdl.handle.net/2183/46352
dc.language.isospa
dc.rightsAttribution 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectAprendizaje automático
dc.subjectBiomedicina
dc.subjectAlgoritmo Fast-mRMR
dc.subjectPU Learning
dc.titleSelección de características para priorización genética mediante aprendizaje automático en entornos de alta dimensionalidad
dc.typebachelor thesis
dspace.entity.typePublication
relation.isAdvisorOfPublicationc91f7d18-38fb-42b8-8be2-b402a40b10c5
relation.isAdvisorOfPublicationa89f1cad-dbc5-471f-986a-26c021ed4a95
relation.isAdvisorOfPublication.latestForDiscoveryc91f7d18-38fb-42b8-8be2-b402a40b10c5

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
FernandezFarelo_Ruben_TFG_2025.pdf
Size:
1.74 MB
Format:
Adobe Portable Document Format