Use this link to cite:
http://hdl.handle.net/2183/33475 New methodological contributions in statistical learning for time series
Identifiers
Publication date
Authors
Advisors
Other responsabilities
Journal Title
Bibliographic citation
Type of academic work
Abstract
[Resumen] Las bases de datos de series temporales se están volviendo omnipresentes en varios campos (por ejemplo, informática, finanzas, biología...), lo que hace que el desarrollo de algoritmos de minería de datos para estos objetos sea una de las principales prioridades para los profesionales del aprendizaje automático y de la estadística. Esta tesis trata sobre la construcción de diferentes algoritmos para la minería de datos de series temporales que abordan una amplia variedad de problemas. Se propone una nueva medida de disimilaridad entre series numéricas multivariantes definida en el dominio de la frecuencia que se utiliza para construir varios algoritmos de clustering cuyo principal objetivo es agrupar las series temporales en base a sus estruc- turas de dependencia subyacentes. Se consideran los enfoques de clustering crisp y clustering fuzzy. Adicionalmente, la medida espectral de divergencia propuesta se combina con diferentes herramientas estadísticas (por ejemplo, técnicas de reducción de la dimensión, descomposición wavelet, y análisis de datos funcionales) para introducir poderosos algoritmos de clasificación y de detección de anomalías en un contexto de series multivariantes. El clustering de series temporales con respuesta categórica también se aborda mediante el uso de distancias que explotan las propiedades específicas de este tipo de series. Las medidas de disimilaridad utilizadas para clustering se emplean asimismo para contrastar la igualdad de los procesos generadores de dos series de tiempo, lo que da lugar a varios contrastes de hipótesis. Adicionalmente, se introduce un paradigma completamente novedoso para abordar el problema de clustering de series temporales, que se basa en con- siderar la precisión de las predicciones como criterio para el agrupamiento. Se trata de un problema realista y complejo, que se aborda mediante un algoritmo específico basado en modelos globales de predicción. Todos los métodos propuestos se formalizan adecuadamente, sus ventajas con respecto a enfoques alternativos se corroboran mediante completos estudios de simulaci on y su utilidad se ilustra mediante el uso de bases de datos reales. Muchos de los algoritmos construidos se implementan en alguno de los tres paquetes que se desarrollan en el lenguaje de programación R. Las funcionalidades de los mismos se describen mediante varios ejemplos.
[Resumo] As bases de datos de series temporais están a volverse omnipresentes en varios campos (por exemplo, informática, finanzas, bioloxía...), o que fai que o desenvolvemento de algoritmos de minería de datos para estes obxectos sexa unha das principais prioridades para os profesionais da aprendizaxe automática e da estatística. Esta tese trata sobre a construción de diferentes algoritmos para a minería de datos de series temporais que abordan unha ampla variedade de problemas. Proponse unha nova medida de discrepancia entre series numéricas multivariantes definida no dominio da frecuencia que se utiliza para construír varios algoritmos de clustering cuxo principal obxectivo é agrupar as series temporais en base as súas estruturas de dependencia subxacentes. Considéranse os enfoques de clustering crisp e clustering fuzzy. Adicionalmente, a medida espectral de diverxencia proposta combínase con diferentes ferramentas estatísticas (por exemplo, técnicas de redución da dimensión, descomposición wavelet, e análise de datos funcionais) para introducir poderosos algoritmos de clasicación e de detección de anomalías nun contexto de series multivariantes. O clustering de series temporais con resposta categórica tamén se aborda mediante o uso de distancias que explotan as propiedades específicas deste tipo de series. As medidas de discrepancia utilizadas para clustering empréganse asímesmo para contrastar a igualdade dos procesos xeradores de dúas series de tempo, o que dá lugar a varios contrastes de hipóteses. Adicionalmente, introdúcese un paradigma completamente novo para abordar o problema de clustering de series temporais, que se basea en considerar a precisión das predicións como criterio para o agrupamento. Trátase dun problema realista e complexo, que se aborda mediante un algoritmo específi co baseado en modelos globais de predición. Todos os métodos propostos formalízanse adecuadamente, as súas vantaxes con respecto a enfoques alternativos corrobóranse mediante completos estudos de simulación e a súa utilidade ilústrase mediante o uso de bases de datos reais. Moitos dos algoritmos construídos impleméntanse nalgún dos tres paquetes que se desenvolven na linguaxe de programación R. As funcionalidades dos mesmos descríbense mediante varios exemplos.
Description
Editor version
Rights
Atribución 4.0 Internacional (CC BY 4.0)
Collections

Except where otherwise noted, this item's license is described as Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido






