Detección de duplicados en bases de datos estructuradas utilizando técnicas de IA

UDC.coleccionTraballos académicos
UDC.tipotrabTFG
UDC.titulacionGrao en Enxeñaría Informática
dc.contributor.advisorFernández-Blanco, Enrique
dc.contributor.advisorRamos Merino, Mateo
dc.contributor.authorCuervo Pallin, David
dc.contributor.otherUniversidade da Coruña. Facultade de Informática
dc.date.accessioned2025-07-28T11:50:16Z
dc.date.available2025-07-28T11:50:16Z
dc.date.issued2025-06
dc.description.abstract[Resumen]: Actualmente, las empresas manejan volúmenes de datos cada vez más grandes, lo que se ha convertido en un gran desafío. La información generada y recopilada juega un papel fundamental en la toma de decisiones estratégicas, operativas y comerciales. Sin embargo, a medida que crece la cantidad de datos, también aumentan los riesgos asociados con su calidad, coherencia y precisión. Uno de los problemas más comunes y perjudiciales en la gestión de base de datos estructurada es la presencia de datos duplicados. Estos pueden surgir debido a una variedad de razones, como errores en la entrada de datos, falta de estándares en los procesos de captura de información o la combinación de múltiples fuentes de datos. Los duplicados no solo afectan la calidad de la información, sino que también pueden generar redundancia y un mal uso de los recursos. En este trabajo se presentan distintas estrategias para la detección de registros duplicados en bases de datos relacionales. Estas incluyen el uso de métricas de distancia entre caracteres, técnicas de inteligencia artificial (Aritificial Intelligente (AI)) supervisada para clasificación binaria, no supervisada para agrupación de registros y técnicas de procesamiento del lenguaje natural (Natural Language Processing (NLP)).
dc.description.abstract[Abstract]: Currently, companies are handling increasingly large volumes of data, which has become a major challenge. The information generated and collected plays a fundamental role in strategic, operational, and commercial decision-making. However, as the amount of data grows, so do the risks associated with its quality, consistency, and accuracy. One of the most common and harmful problems in managing a structured data base is the presence of duplicates. These may arise due to a variety of reasons, such as data entry errors, lack of standards in information capture processes, or the integration of multiple data sources. Duplicates not only affect the quality of the information but can also lead to redundancy and poor use of resources. This work presents different strategies for detecting duplicate records in relational databases. These include the use of character distance metrics, supervised AI techniques for binary classification, unsupervised methods for record clustering, and NLP techniques.
dc.description.traballosTraballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2024/2025
dc.identifier.urihttps://hdl.handle.net/2183/45572
dc.language.isospa
dc.rightsOs titulares dos dereitos de autor autorizan a visualización do contido desta obra a través de Internet, así como a súa reprodución, gravación en soporte informático ou impresión para uso privado ou con fins de investigación. En ningún caso se permite o uso lucrativo deste documento. Estes dereitos afectan tanto ao resumo da obra como ao seu contido. Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de este trabajo a través de Internet, así como su reproducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen del trabajo como a su contenido.
dc.rights.accessRightsopen access
dc.subjectDuplicados
dc.subjectDistancia entre caracteres
dc.subjectInteligencia artificial supervisada
dc.subjectInteligencia artificial no supervisada
dc.subjectProcesamiento del lenguaje natural
dc.subjectDatabases
dc.subjectDuplicates
dc.subjectCharacter distance
dc.subjectSupervised artificial intelligence
dc.subjectUnsupervised artificial intelligence
dc.subjectNatural language processing
dc.titleDetección de duplicados en bases de datos estructuradas utilizando técnicas de IA
dc.typebachelor thesis
dspace.entity.typePublication
relation.isAdvisorOfPublication244a6828-de1c-45f3-86b6-69bb81250814
relation.isAdvisorOfPublication.latestForDiscovery244a6828-de1c-45f3-86b6-69bb81250814

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
CuervoPallin_David_TFG_2025.pdf
Size:
778.81 KB
Format:
Adobe Portable Document Format