Análisis y recuperación de valores faltantes en aprendizaje automático: Diseño de una librería para la optimización y recuperación de conjuntos de datos

Loading...
Thumbnail Image

Identifiers

Publication date

Authors

Becerra Suárez, Alejandro

Other responsabilities

Universidade da Coruña. Facultade de Informática

Journal Title

Bibliographic citation

Type of academic work

Abstract

[Resumen]: La información constituye el principal recurso para el desarrollo de sistemas de Inteligencia Artificial. En general, cuanto mayor sea el volumen y la calidad de los datos utilizados durante el entrenamiento, mejores serán los resultados obtenidos por los modelos. Sin embargo, uno de los problemas más comunes en los conjuntos de datos reales es la presencia de valores faltantes o nulos, que afectan negativamente tanto a la calidad de los datos como al rendimiento de los modelos. Estos valores faltantes reducen la cantidad de información útil disponible, lo que limita la capacidad predictiva de los algoritmos de aprendizaje automático. En este trabajo, se desarrolla una librería en Python orientada al análisis y recuperación de valores faltantes mediante distintos métodos. El objetivo principal es minimizar la pérdida de datos al aplicar estrategias de imputación o eliminación, permitiendo así conservar la mayor cantidad posible de información sin comprometer la fiabilidad de los resultados.
[Abstract]: Information is the main resource for the development of Artificial Intelligence systems. In general, the larger and higher-quality the volume of data used during training, the better the results achieved by the models. However, one of the most common problems in real-world datasets is the presence of missing values or nulls, which negatively affect both data quality and model performance. These missing values reduce the amount of useful information available, thereby limiting the predictive capability of machine learning algorithms. In this work, a Python library was developed focused on the analysis and recovery of missing values using various methods. The primary objective is to minimize data loss by applying imputation or deletion strategies, thus preserving as much information as possible without compromising the reliability of the results.

Description

Editor version

Rights

Attribution 4.0 International
Attribution 4.0 International

Except where otherwise noted, this item's license is described as Attribution 4.0 International