Detección de duplicados en bases de datos estructuradas utilizando técnicas de IA

Cuervo Pallin, David

Detección de duplicados en bases de datos estructuradas utilizando técnicas de IA

UDC.coleccion	Traballos académicos
UDC.tipotrab	TFG
UDC.titulacion	Grao en Enxeñaría Informática
dc.contributor.advisor	Fernández-Blanco, Enrique
dc.contributor.advisor	Ramos Merino, Mateo
dc.contributor.author	Cuervo Pallin, David
dc.contributor.other	Universidade da Coruña. Facultade de Informática
dc.date.accessioned	2025-07-28T11:50:16Z
dc.date.available	2025-07-28T11:50:16Z
dc.date.issued	2025-06
dc.description.abstract	[Resumen]: Actualmente, las empresas manejan volúmenes de datos cada vez más grandes, lo que se ha convertido en un gran desafío. La información generada y recopilada juega un papel fundamental en la toma de decisiones estratégicas, operativas y comerciales. Sin embargo, a medida que crece la cantidad de datos, también aumentan los riesgos asociados con su calidad, coherencia y precisión. Uno de los problemas más comunes y perjudiciales en la gestión de base de datos estructurada es la presencia de datos duplicados. Estos pueden surgir debido a una variedad de razones, como errores en la entrada de datos, falta de estándares en los procesos de captura de información o la combinación de múltiples fuentes de datos. Los duplicados no solo afectan la calidad de la información, sino que también pueden generar redundancia y un mal uso de los recursos. En este trabajo se presentan distintas estrategias para la detección de registros duplicados en bases de datos relacionales. Estas incluyen el uso de métricas de distancia entre caracteres, técnicas de inteligencia artificial (Aritificial Intelligente (AI)) supervisada para clasificación binaria, no supervisada para agrupación de registros y técnicas de procesamiento del lenguaje natural (Natural Language Processing (NLP)).
dc.description.abstract	[Abstract]: Currently, companies are handling increasingly large volumes of data, which has become a major challenge. The information generated and collected plays a fundamental role in strategic, operational, and commercial decision-making. However, as the amount of data grows, so do the risks associated with its quality, consistency, and accuracy. One of the most common and harmful problems in managing a structured data base is the presence of duplicates. These may arise due to a variety of reasons, such as data entry errors, lack of standards in information capture processes, or the integration of multiple data sources. Duplicates not only affect the quality of the information but can also lead to redundancy and poor use of resources. This work presents different strategies for detecting duplicate records in relational databases. These include the use of character distance metrics, supervised AI techniques for binary classification, unsupervised methods for record clustering, and NLP techniques.
dc.description.traballos	Traballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2024/2025
dc.identifier.uri	https://hdl.handle.net/2183/45572
dc.language.iso	spa
dc.rights	Os titulares dos dereitos de autor autorizan a visualización do contido desta obra a través de Internet, así como a súa reprodución, gravación en soporte informático ou impresión para uso privado ou con fins de investigación. En ningún caso se permite o uso lucrativo deste documento. Estes dereitos afectan tanto ao resumo da obra como ao seu contido. Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de este trabajo a través de Internet, así como su reproducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen del trabajo como a su contenido.
dc.rights.accessRights	open access
dc.subject	Duplicados
dc.subject	Distancia entre caracteres
dc.subject	Inteligencia artificial supervisada
dc.subject	Inteligencia artificial no supervisada
dc.subject	Procesamiento del lenguaje natural
dc.subject	Databases
dc.subject	Duplicates
dc.subject	Character distance
dc.subject	Supervised artificial intelligence
dc.subject	Unsupervised artificial intelligence
dc.subject	Natural language processing
dc.title	Detección de duplicados en bases de datos estructuradas utilizando técnicas de IA
dc.type	bachelor thesis
dspace.entity.type	Publication
relation.isAdvisorOfPublication	244a6828-de1c-45f3-86b6-69bb81250814
relation.isAdvisorOfPublication.latestForDiscovery	244a6828-de1c-45f3-86b6-69bb81250814

Files

Original bundle

Now showing 1 - 1 of 1

Name:: CuervoPallin_David_TFG_2025.pdf
Size:: 778.81 KB
Format:: Adobe Portable Document Format

Download

Collections

Traballos académicos (FIC)