New methodological contributions in statistical learning for time series

López-Oriona, Ángel

Use this link to cite:

http://hdl.handle.net/2183/33475

New methodological contributions in statistical learning for time series

Files

LopezOriona_Angel_TD_2023.pdf (49.91 MB)

Identifiers

URI: http://hdl.handle.net/2183/33475

Publication date

2023

Authors

López-Oriona, Ángel

Advisors

Vilar, José

Academic degree

Programa Oficial de Doutoramento en Estatística e Investigación Operativa

Abstract

[Abstract] Time series databases are becoming omnipresent in several fields (e.g., computer sciences, finance, biology...), which makes the development of data mining algorithms for these objects a top priority among machine learning and statistics practitioners. This thesis deals with the construction of dif- ferent algorithms for time series data mining addressing a wide variety of problems. A novel dissimilarity measure between real-valued multivariate series defined in the frequency domain is proposed and used to construct several clustering algorithms whose main goal is to group the time series according to their underlying dependence structures. Both the crisp and the fuzzy clustering approaches are considered. The proposed spectral di- vergence measure is also combined with different statistical tools (including techniques of dimensionality reduction, wavelet decomposition, and func- tional data analysis) to introduce new and powerful algorithms to perform classification and outlier detection of multivariate time series. Clustering of times series with categorical response is also addressed by considering distances taking advantage of the specific properties of these data objects. The dissimilarity measures used for clustering purposes are also employed for testing the equality of the generating processes of two time series, which results in several hypothesis tests. A whole new different paradigm to per- form time series clustering is introduced by establishing the clustering pur- pose in terms of prediction accuracy. This realistic and challenging problem is addressed by means of a specific algorithm based on global forecasting methods. All the proposed techniques are properly formalized, their ad- vantages with respect to alternative methods are shown through extensive simulation experiments and their usefulness is illustrated by using real time series databases. Three software packages written in the R programming language are created to implement many of the constructed algorithms and their functionalities are explained by means of practical examples.
[Resumen] Las bases de datos de series temporales se están volviendo omnipresentes en varios campos (por ejemplo, informática, finanzas, biología...), lo que hace que el desarrollo de algoritmos de minería de datos para estos objetos sea una de las principales prioridades para los profesionales del aprendizaje automático y de la estadística. Esta tesis trata sobre la construcción de diferentes algoritmos para la minería de datos de series temporales que abordan una amplia variedad de problemas. Se propone una nueva medida de disimilaridad entre series numéricas multivariantes definida en el dominio de la frecuencia que se utiliza para construir varios algoritmos de clustering cuyo principal objetivo es agrupar las series temporales en base a sus estruc- turas de dependencia subyacentes. Se consideran los enfoques de clustering crisp y clustering fuzzy. Adicionalmente, la medida espectral de divergencia propuesta se combina con diferentes herramientas estadísticas (por ejemplo, técnicas de reducción de la dimensión, descomposición wavelet, y análisis de datos funcionales) para introducir poderosos algoritmos de clasificación y de detección de anomalías en un contexto de series multivariantes. El clustering de series temporales con respuesta categórica también se aborda mediante el uso de distancias que explotan las propiedades específicas de este tipo de series. Las medidas de disimilaridad utilizadas para clustering se emplean asimismo para contrastar la igualdad de los procesos generadores de dos series de tiempo, lo que da lugar a varios contrastes de hipótesis. Adicionalmente, se introduce un paradigma completamente novedoso para abordar el problema de clustering de series temporales, que se basa en con- siderar la precisión de las predicciones como criterio para el agrupamiento. Se trata de un problema realista y complejo, que se aborda mediante un algoritmo específico basado en modelos globales de predicción. Todos los métodos propuestos se formalizan adecuadamente, sus ventajas con respecto a enfoques alternativos se corroboran mediante completos estudios de simulaci on y su utilidad se ilustra mediante el uso de bases de datos reales. Muchos de los algoritmos construidos se implementan en alguno de los tres paquetes que se desarrollan en el lenguaje de programación R. Las funcionalidades de los mismos se describen mediante varios ejemplos.
[Resumo] As bases de datos de series temporais están a volverse omnipresentes en varios campos (por exemplo, informática, finanzas, bioloxía...), o que fai que o desenvolvemento de algoritmos de minería de datos para estes obxectos sexa unha das principais prioridades para os profesionais da aprendizaxe automática e da estatística. Esta tese trata sobre a construción de diferentes algoritmos para a minería de datos de series temporais que abordan unha ampla variedade de problemas. Proponse unha nova medida de discrepancia entre series numéricas multivariantes definida no dominio da frecuencia que se utiliza para construír varios algoritmos de clustering cuxo principal obxectivo é agrupar as series temporais en base as súas estruturas de dependencia subxacentes. Considéranse os enfoques de clustering crisp e clustering fuzzy. Adicionalmente, a medida espectral de diverxencia proposta combínase con diferentes ferramentas estatísticas (por exemplo, técnicas de redución da dimensión, descomposición wavelet, e análise de datos funcionais) para introducir poderosos algoritmos de clasicación e de detección de anomalías nun contexto de series multivariantes. O clustering de series temporais con resposta categórica tamén se aborda mediante o uso de distancias que explotan as propiedades específicas deste tipo de series. As medidas de discrepancia utilizadas para clustering empréganse asímesmo para contrastar a igualdade dos procesos xeradores de dúas series de tempo, o que dá lugar a varios contrastes de hipóteses. Adicionalmente, introdúcese un paradigma completamente novo para abordar o problema de clustering de series temporais, que se basea en considerar a precisión das predicións como criterio para o agrupamento. Trátase dun problema realista e complexo, que se aborda mediante un algoritmo específi co baseado en modelos globais de predición. Todos os métodos propostos formalízanse adecuadamente, as súas vantaxes con respecto a enfoques alternativos corrobóranse mediante completos estudos de simulación e a súa utilidade ilústrase mediante o uso de bases de datos reais. Moitos dos algoritmos construídos impleméntanse nalgún dos tres paquetes que se desenvolven na linguaxe de programación R. As funcionalidades dos mesmos descríbense mediante varios exemplos.

Keywords

Minería de datos Serie cronológica-Informática Estadística-Informática

Rights

Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido
Atribución 4.0 Internacional (CC BY 4.0)

Collections

Teses de doutoramento

Full item page

Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido

Except where otherwise noted, this item's license is described as Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido

New methodological contributions in statistical learning for time series

Files

Identifiers

Publication date

Authors

Advisors

Other responsabilities

Journal Title

Bibliographic citation

Type of academic work

Academic degree

Abstract

Description

Keywords

Editor version

Rights

Collections