New methodological contributions in time series clustering

View/ Open
Use this link to cite
http://hdl.handle.net/2183/19298Collections
- Teses de doutoramento [2221]
Metadata
Show full item recordTitle
New methodological contributions in time series clusteringAuthor(s)
Directors
Vilar Fernández, José AntonioDate
2017Abstract
[Abstract]
This thesis presents new procedures to address the analysis cluster of time
series. First of all a two-stage procedure based on comparing frequencies and
magnitudes of the absolute maxima of the spectral densities is proposed. Assuming
that the clustering purpose is to group series according to the underlying
dependence structures, a detailed study of the behavior in clustering of a dissimilarity
based on comparing estimated quantile autocovariance functions (QAF)
is also carried out. A prediction-based resampling algorithm proposed by Dudoit
and Fridlyand is adjusted to select the optimal number of clusters. The
asymptotic behavior of the sample quantile autocovariances is studied and an
algorithm to determine optimal combinations of lags and pairs of quantile levels
to perform clustering is introduced. The proposed metric is used to perform
hard and soft partitioning-based clustering. First, a broad simulation study
examines the behavior of the proposed metric in crisp clustering using hierarchkal
and PAM procedure. Then, a novel fuzzy C-mcdoids algorithm based on
the QAF-dissimilarity is proposed. Three different robust versions of this fuzzy
algorithm are also presented to deal with data containing outlier time series.
Finally, other ways of soft clustering analysis are explored, namely probabilistic
0-clustering and clustering based on mixture models. [Resumo]
Esta tese presenta novos procedementos para abordar a análise cluster de
series temporais. En primeiro lugar proponse un procedemento en dúas etapas
baseádo na comparación de frecuencias e magnitudes dos máximos absolutos das
densidades espectrais. Supoñendo que o propósito é agrupar series dacordo coas
estruturas de dependencia subxaccntes, tamén se leva a cabo un estudo detallado
do comportamento en clustering dunha disimilaridade basea.da na comparación
das funcións estimadas das autocovarianzas cuantil (QAF). Un algoritmo de remostraxe
baseado na predición proposto por Dudoit e Fridlyand adáptase para
selecionar o número óptimo de clusters. Tamén se estuda o comportamento
asintótico das autocovarianzas cuantís e se introduce un algoritmo para determinar
as combinacións óptimas de lags e pares de niveles de cuantís para levar
a cabo a clasificación. A métrica proposta utilízase para realizar análise cluster
baseado en particións "hard" e "soft". En primeiro lugar, un amplo estudo de
simulación examina o comportamento da métrica proposta en clústering "hard"
utilizando os procedementos xerárquico e PAM. A continuación, proponse un
novo algoritmo "fuzzy" C-medoides baseado na disimilaridade QAF. Tamén se
presentan tres versións robustas deste algoritmo "fuzzy" para tratar con datos
que conteñan valores atípicos. Finalmente, explóranse outras vías de análise
cluster "soft", concretamente, D-clustering probabilístico e clustering baseado
en modelos mixtos. [Resumen]
Esta tesis presenta nuevos procedimientos para abordar el análisis cluster de
series temporales. En primer lugar se propone un procedimiento en dos etapas
basado en la comparación de frecuencias y magnitudes de los máximos absolutos
de las densidades espectrales. Suponiendo que el propósito es agrupar series
de acuerdo con las estructuras de dependencia subyacentes, también se lleva. a
cabo un estudio detallado del comportamiento en clustering de una disimilaridad
basada en la comparación de las funciones estimadas de las autoco,'afiancias
cuantil (QAF). Un algoritmo de remuestreo basado en predicción propuesto por
Dudoit y Fridlyand se adapta para seleccionar el número óptimo de clusters.
También se estudia el comportamiento asintótico de las autocovariancias cuantites
y se introduce un algoritmo para determinar las combinaciones óptimas de
lags y pares de niveles de cuantiles para llevar a cabo la clasificación. La. métrica
propuesta se utiliza para realizar análisis cluster basado en particiones "hard"
y ''soft". En primer lugar, un amplio elltudio de simulación examina el comportamiento
de la métrica propuesta en clúster "hard" utilizando los procedimientos
jerárquico y PAM. A continuación, se propone un nuevo algoritmo "fuzzy" Cmedoides
basado en la disimilaridad QAF. También se presentan tres versiones
robustas de este algoritmo "fuzzy" para tratar con datos que contengan atípicos.
Finalmente, se exploran otras vías de análisis clus ter "soft", concretamente,
D-clustering probabilístico y clustering basado en modelos mixtos.
Keywords
Algoritmos borrosos
Análisis multivariante
Análisis multivariante
Rights
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido