Detección de duplicados en bases de datos estructuradas utilizando técnicas de IA

Loading...
Thumbnail Image

Identifiers

Publication date

Authors

Cuervo Pallin, David

Advisors

Ramos Merino, Mateo

Other responsabilities

Universidade da Coruña. Facultade de Informática

Journal Title

Bibliographic citation

Type of academic work

Abstract

[Resumen]: Actualmente, las empresas manejan volúmenes de datos cada vez más grandes, lo que se ha convertido en un gran desafío. La información generada y recopilada juega un papel fundamental en la toma de decisiones estratégicas, operativas y comerciales. Sin embargo, a medida que crece la cantidad de datos, también aumentan los riesgos asociados con su calidad, coherencia y precisión. Uno de los problemas más comunes y perjudiciales en la gestión de base de datos estructurada es la presencia de datos duplicados. Estos pueden surgir debido a una variedad de razones, como errores en la entrada de datos, falta de estándares en los procesos de captura de información o la combinación de múltiples fuentes de datos. Los duplicados no solo afectan la calidad de la información, sino que también pueden generar redundancia y un mal uso de los recursos. En este trabajo se presentan distintas estrategias para la detección de registros duplicados en bases de datos relacionales. Estas incluyen el uso de métricas de distancia entre caracteres, técnicas de inteligencia artificial (Aritificial Intelligente (AI)) supervisada para clasificación binaria, no supervisada para agrupación de registros y técnicas de procesamiento del lenguaje natural (Natural Language Processing (NLP)).
[Abstract]: Currently, companies are handling increasingly large volumes of data, which has become a major challenge. The information generated and collected plays a fundamental role in strategic, operational, and commercial decision-making. However, as the amount of data grows, so do the risks associated with its quality, consistency, and accuracy. One of the most common and harmful problems in managing a structured data base is the presence of duplicates. These may arise due to a variety of reasons, such as data entry errors, lack of standards in information capture processes, or the integration of multiple data sources. Duplicates not only affect the quality of the information but can also lead to redundancy and poor use of resources. This work presents different strategies for detecting duplicate records in relational databases. These include the use of character distance metrics, supervised AI techniques for binary classification, unsupervised methods for record clustering, and NLP techniques.

Description

Editor version

Rights

Os titulares dos dereitos de autor autorizan a visualización do contido desta obra a través de Internet, así como a súa reprodución, gravación en soporte informático ou impresión para uso privado ou con fins de investigación. En ningún caso se permite o uso lucrativo deste documento. Estes dereitos afectan tanto ao resumo da obra como ao seu contido. Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de este trabajo a través de Internet, así como su reproducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen del trabajo como a su contenido.