Selección de características para priorización genética mediante aprendizaje automático en entornos de alta dimensionalidad

Paz Ruza, JorgeAlonso-Betanzos, AmparoFernández Farelo, RubénUniversidade da Coruña. Facultade de Informática2025-11-072025-11-072025-09https://hdl.handle.net/2183/46352[Resumen]: En la priorización génica, uno de los principales retos es trabajar con conjuntos de datos biomédicos de alta dimensionalidad y etiquetado incompleto, donde solo una pequeña fracción de los genes han sido validados como relevantes. Esta situación, habitual en campos como el estudio de la restricción dietética, dificulta la construcción de modelos fiables, al aumentar el riesgo de sobreajuste, sesgo y pérdida de interpretabilidad. Este trabajo propone una solución basada en la selección de características mediante el algoritmo Fast-mRMR, con el objetivo de reducir drásticamente el número de características utilizadas, conservando solo aquellas más relevantes desde el punto de vista biológico. Esto permite construir modelos más simples, interpretables y competitivos, trabajando con menos información pero de mayor calidad. El enfoque parte de un escenario con datos parcialmente etiquetados, donde solo se dispone de ejemplos positivos confirmados, lo que refleja de forma más realista la incertidumbre inherente al problema. Los experimentos realizados sobre múltiples fuentes de datos (GO, PathDIP, GTEx, Coexpression) y sus combinaciones muestran mejoras consistentes frente a enfoques previos. Además, se evalúa el uso de técnicas de PU Learning como complemento.[Abstract]: In gene prioritization, one of the main challenges lies in handling high-dimensional biomedical datasets with incomplete labeling, where only a small subset of genes is experimentally validated as relevant. This scenario, common in contexts like dietary restriction studies, makes it difficult to build reliable models without introducing bias or overfitting. This work proposes a feature selection approach based on the Fast-mRMR algorithm, aiming to drastically reduce the number of features by retaining only those that are biologically informative. This strategy enables the construction of simpler, more interpretable, and competitive models, working with less data but of higher quality. The approach is based on a partially labeled data scenario, where only confirmed positive examples are available, which more realistically reflects the inherent uncertainty of the problem. Experiments conducted on multiple data sources (GO, PathDIP, GTEx, Coexpression) and their combinations show consistent improvements over previous approaches. Additionally, PU Learning techniques are explored as a complementary component.spaAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/Aprendizaje automáticoBiomedicinaAlgoritmo Fast-mRMRPU LearningSelección de características para priorización genética mediante aprendizaje automático en entornos de alta dimensionalidadbachelor thesisopen access