Computational learning algorithms for large-scale datasets

Fernández Francos, Diego

dc.contributor.advisor	Fontenla-Romero, Óscar
dc.contributor.advisor	Alonso-Betanzos, Amparo
dc.contributor.author	Fernández Francos, Diego
dc.date.accessioned	2017-10-03T18:48:27Z
dc.date.available	2017-10-03T18:48:27Z
dc.date.issued	2017
dc.identifier.uri	http://hdl.handle.net/2183/19568
dc.description	Programa Oficial de Doutoramento en Computación . 5009V01	es_ES
dc.description.abstract	[Resumen]Actualmente nos encontramos sumidos en una avalancha de datos. Este hecho ha modificado fundamentalmente la manera en que se comparte la información y ha puesto de manifiesto la necesidad de desarrollar nuevos métodos eficientes para procesar y almacenar grandes cantidades de datos. El aprendizaje computacional es el área de la inteligencia artificial dedicada a estudiar algoritmos que puedan aprender a partir de los datos, hacer predicciones o crear representaciones exactas basadas en las observaciones. En este contexto, en el que el número de datos crece más rápido que la velocidad de los procesadores, la capacidad de los algoritmos tradicionales de aprendizaje máquina se encuentra limitada por el tiempo de computación y no por el tamaño de la muestra. Además, al tratar con gran cantidad de datos, los algoritmos de aprendizaje pueden degenerar su rendimiento debido al sobreajuste y su eficiencia decae de acuerdo con el tamaño. Por lo tanto, la escalabilidad de los algoritmos de aprendizaje ha dejado de ser una característica deseable de los algoritmos de aprendizaje para convertirse en una propiedad crucial cuando se trabaja con conjuntos de datos muy grandes. Existen, básicamente, tres enfoques diferentes para asegurar la escalabilidad de los algoritmos a medida que los conjuntos de datos continúan creciendo en tamaño y complejidad: aprendizaje en tiempo real, aprendizaje no iterativo y aprendizaje distribuido. Esta tesis desarrolla nuevos métodos de aprendizaje computacional escalables y eficientes siguiendo los tres enfoques anteriores. Específicamente, se desarrollan cuatro nuevos algoritmos: (1) El primero combina selección de características y clasificación en tiempo real, mediante la adaptación de un filtro clásico y la modificación de un algoritmo de aprendizaje incremental basado en una red neuronal de una capa. (2) El siguiente consiste en nuevo clasificador uniclase basado en una función de coste no iterativa para redes neuronales autoasociativas que lleva a cabo la reducción de dimensionalidad en la capa oculta mediante la técnica de Decomposición en Valores Singulares. (3) El tercer método es un nuevo clasificador uniclase basado en el cierre convexo para entornos de datos distribuidos que reduce la dimensionalidad del problema y, por lo tanto, la complejidad, mediante la utilización de proyecciones aleatorias. (4) Por último, se presenta una versión incremental del anterior algoritmo de clasificación uniclase.	es_ES
dc.description.abstract	[Resumo] Hoxe en día atopámonos soterrados nunha morea de datos. Isto cambiou fundamentalmente a fonna na que a infonnación é compartida e puxo de manifesto a necesidade de desenvolver novos métodos eficientes para o procesamento e o almacenamento de grandes cantidades de datos. A aprendizaxe computacional é a área da intelixencia artificial dedicada a estudar algoritmos que poden aprender a partir dos datos. facer previsións 00 crear representacións precisas con base nas observacións. Neste contexto, no cal o número de datos crece roáis rápido que a velocidade dos procesadores, a capacidade dos algoritmos de aprendizaxe máquina tradicionais vese limitada polo tempo de computación e non polo tamaño da mostra. Ademais, cando se trata de grandes cantidades de datos, os algoritmos de aprendizaxe poden dexenerar o seu rendemento debido ó sobreaxuste e a súa eficiencia decae segundo o tamaño. Polo tanto, a escalabilidade dos algoritmos de aprendizaxe xa non é unha caracteristica desexable senón que se trata de unha propiedade fundamental cando se traballa con conxuntos de datos IDoi grandes. Existen basicamente tres enfoques diferentes para garantir a escalabilidade dos algoritmos namentres os conxuntos de datos seguen a medrar en tamaño e complexidade: aprendizaxe en tempo real, aprendizaxe non iterativa e aprendizaxe distribuida. Esta tese presenta novos métodos de aprendizaxe computacional escalables e eficientes seguindo os tres enfoques anteriores. En concreto, desenvólvense catro novos algoritmos: (1) O primeiro método mistura selección de características e clasificación en tempo real, a través da adaptación dun filtro convencional e da modificación de un algoritmo incrementábel baseado nunha rede de neuronas de unha capa: (2) O seguinte é un novo clasificador uniclase con base nunha función de custo non iterativa para redes de neuronas auto asociativas que leva a cabo a redución da dirnensionalidade na capa oculta pola técnica de Descomposición en Valores Singulares. (3) O terceiro método é un novo clasificador uniclase baseado no convex hull para conxuntos de datos distribuidos que reduce a dimensión dos datos do problema e, polo tanto, a complexidade, utilizando proxeccións aleatorias. (4) Por último, preséntase unha versión incremental do algoritmo de clasifición unicIase anterior.	es_ES
dc.description.abstract	[Abstract] Nowadays we are engulfed in a flood of data. Tbis faet has fundamentally changed the ways that infonnation is shared, and has marle it clear that efficient methods fOI processing and staring vast amounts oi data should be put forward. Computationallearning theory i5 the area of artificial intelligence devoted to study algorithms aim at leaming froro data, building accurate models based on observations. In this context, where data has grown faster than the speed Di processors, the capabilities of traditional machine Iearning algorithms are limited by the computational time rather than by the sample size. Besides, when dealing with large quantities of data, learning algorithms can degenerate the:ir performance due to ayer-fitting and their efficiency declines in accordance with size. Therefore, the scalability Di the learning algorithms has turned froro a desirable property into a crucial one when very large datasets are envisioned, There exists, basically, three intersecting approaches to ensure algorithms scalability as datasets continue to grow in size and complexity: online learning, non-iterative learning and distributed leaming, This thesis develops new efficient and scalable machine leaming methods following the three previous approaches. Specifically, four new algorithms are developed, (1) The first one perfonns onIine feature selection and classification at the sarue time, by the adaptation of a c1assical fiIter method and the modification of an ooline leaming algorithm for one-Iayer neuraI network, (2) The next one is a new fast and efficient one-c1ass c1assifier based 00 a non-iterative cost function for autoassociative neural networks that perfonns dimensionality reduction io the hidden layer by means of Singular VaIue Decomposition. (3) The third method is a new onec1ass convex hull-based c1assifier fer distributed environments that reduces the dimeosionality of the problem and hence the complexity by means of Random Projections, (4) FinaIly, an onlioe version of the previous one-class classification algorithm is presented.	es_ES
dc.language.iso	eng	es_ES
dc.rights	Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido	es_ES
dc.subject	Aprendizaje automático	es_ES
dc.subject	Redes neuronales (Informática)	es_ES
dc.subject	Algoritmos-Informática	es_ES
dc.title	Computational learning algorithms for large-scale datasets	es_ES
dc.type	info:eu-repo/semantics/doctoralThesis	es_ES
dc.rights.access	info:eu-repo/semantics/openAccess	es_ES

Ficheiros no ítem

Nome:: FernandezFrancos_Diego_TD_2017.pdf
Tamaño:: 1.446Mb
Formato:: PDF

Ver/abrir

Este ítem aparece na(s) seguinte(s) colección(s)

Teses de doutoramento [2122]

Mostrar o rexistro simple do ítem