Análisis del impacto de las medidas de distancia en técnicas de reducción de la dimensionalidad

Ver/ abrir
Use este enlace para citar
http://hdl.handle.net/2183/33866
A non ser que se indique outra cousa, a licenza do ítem descríbese como Atribución-CompartirIgual 3.0 España
Coleccións
Metadatos
Mostrar o rexistro completo do ítemTítulo
Análisis del impacto de las medidas de distancia en técnicas de reducción de la dimensionalidadAutor(es)
Director(es)
Blanco-Mallo, EvaBolón-Canedo, Verónica
Data
2023Centro/Dpto/Entidade
Universidade da Coruña. Facultade de InformáticaDescrición
Traballo fin de grao (UDC.FIC). Ciencia e enxeñaría de datos. Curso 2022/2023Resumo
[Resumen]: Debido a que la gran cantidad de datos generada por empresas, instituciones y usuarios es cada
vez mayor, múltiples veces es necesario lidiar con conjuntos de datos con elevado número
de características, lo que hace que las técnicas de reducción de la dimensión cobren cada vez
mayor importancia. En este proyecto se va a analizar el rendimiento de diferentes medidas
de distancia en técnicas de reducción de la dimensión, en concreto, en Principal Component
Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE) y Uniform Manifold Approximation
and Projection (UMAP). El objetivo es observar como afectan estas medidas de
distancia tanto en la visualización como en la clasificación del conjunto de datos. Se va a establecer
como baseline la distancia euclídea y se va a comparar con resultados obtenidos con
otras métricas como Canberra, correlación, Minkowski o coseno. [Abstract]:Due to the large amount of data generated by companies, institutions and users, it is often
necessary to deal with data sets with a high number of features, which makes dimension
reduction techniques increasingly important. In this project, the performance of different
distance measures in dimension reduction techniques will be analyzed, specifically, in Principal
Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE) and
Uniform Manifold Approximation and Projection (UMAP). The objective is to observe how
these distance measures affect both the visualization and the classification of the data set.
The euclidean distance will be established as a baseline and it will be compared with results
obtained with other metrics such as Canberra, correlation, Minkowski or cosine.
Palabras chave
Reducción de la dimensionalidad
PCA
UMAP
t-SNE
Medidas de distancia
Visualización
Clasificación
Dimensionality reduction
Distance measurements
Visualization
Classification
PCA
UMAP
t-SNE
Medidas de distancia
Visualización
Clasificación
Dimensionality reduction
Distance measurements
Visualization
Classification
Dereitos
Atribución-CompartirIgual 3.0 España