Computational learning algorithms for large-scale datasets

Use this link to cite
http://hdl.handle.net/2183/19568Collections
- Teses de doutoramento [2219]
Metadata
Show full item recordTitle
Computational learning algorithms for large-scale datasetsAuthor(s)
Directors
Fontenla-Romero, ÓscarAlonso-Betanzos, Amparo
Date
2017Abstract
[Resumen]Actualmente nos encontramos sumidos en una avalancha de datos. Este hecho ha modificado
fundamentalmente la manera en que se comparte la información y ha puesto de manifiesto la
necesidad de desarrollar nuevos métodos eficientes para procesar y almacenar grandes cantidades
de datos. El aprendizaje computacional es el área de la inteligencia artificial dedicada
a estudiar algoritmos que puedan aprender a partir de los datos, hacer predicciones o crear representaciones
exactas basadas en las observaciones. En este contexto, en el que el número de
datos crece más rápido que la velocidad de los procesadores, la capacidad de los algoritmos
tradicionales de aprendizaje máquina se encuentra limitada por el tiempo de computación y
no por el tamaño de la muestra. Además, al tratar con gran cantidad de datos, los algoritmos
de aprendizaje pueden degenerar su rendimiento debido al sobreajuste y su eficiencia decae de
acuerdo con el tamaño. Por lo tanto, la escalabilidad de los algoritmos de aprendizaje ha dejado
de ser una característica deseable de los algoritmos de aprendizaje para convertirse en una
propiedad crucial cuando se trabaja con conjuntos de datos muy grandes. Existen, básicamente,
tres enfoques diferentes para asegurar la escalabilidad de los algoritmos a medida que los conjuntos
de datos continúan creciendo en tamaño y complejidad: aprendizaje en tiempo real,
aprendizaje no iterativo y aprendizaje distribuido. Esta tesis desarrolla nuevos métodos de
aprendizaje computacional escalables y eficientes siguiendo los tres enfoques anteriores. Específicamente, se desarrollan cuatro nuevos algoritmos: (1) El primero combina selección de
características y clasificación en tiempo real, mediante la adaptación de un filtro clásico y la
modificación de un algoritmo de aprendizaje incremental basado en una red neuronal de una
capa. (2) El siguiente consiste en nuevo clasificador uniclase basado en una función de coste
no iterativa para redes neuronales autoasociativas que lleva a cabo la reducción de dimensionalidad
en la capa oculta mediante la técnica de Decomposición en Valores Singulares. (3) El
tercer método es un nuevo clasificador uniclase basado en el cierre convexo para entornos de
datos distribuidos que reduce la dimensionalidad del problema y, por lo tanto, la complejidad,
mediante la utilización de proyecciones aleatorias. (4) Por último, se presenta una versión
incremental del anterior algoritmo de clasificación uniclase. [Resumo]
Hoxe en día atopámonos soterrados nunha morea de datos. Isto cambiou fundamentalmente
a fonna na que a infonnación é compartida e puxo de manifesto a necesidade de desenvolver
novos métodos eficientes para o procesamento e o almacenamento de grandes cantidades de
datos. A aprendizaxe computacional é a área da intelixencia artificial dedicada a estudar algoritmos
que poden aprender a partir dos datos. facer previsións 00 crear representacións precisas
con base nas observacións. Neste contexto, no cal o número de datos crece roáis rápido que
a velocidade dos procesadores, a capacidade dos algoritmos de aprendizaxe máquina tradicionais
vese limitada polo tempo de computación e non polo tamaño da mostra. Ademais,
cando se trata de grandes cantidades de datos, os algoritmos de aprendizaxe poden dexenerar
o seu rendemento debido ó sobreaxuste e a súa eficiencia decae segundo o tamaño. Polo tanto,
a escalabilidade dos algoritmos de aprendizaxe xa non é unha caracteristica desexable senón
que se trata de unha propiedade fundamental cando se traballa con conxuntos de datos IDoi
grandes. Existen basicamente tres enfoques diferentes para garantir a escalabilidade dos algoritmos
namentres os conxuntos de datos seguen a medrar en tamaño e complexidade: aprendizaxe
en tempo real, aprendizaxe non iterativa e aprendizaxe distribuida. Esta tese presenta
novos métodos de aprendizaxe computacional escalables e eficientes seguindo os tres enfoques
anteriores. En concreto, desenvólvense catro novos algoritmos: (1) O primeiro método
mistura selección de características e clasificación en tempo real, a través da adaptación dun
filtro convencional e da modificación de un algoritmo incrementábel baseado nunha rede de
neuronas de unha capa: (2) O seguinte é un novo clasificador uniclase con base nunha función
de custo non iterativa para redes de neuronas auto asociativas que leva a cabo a redución da
dirnensionalidade na capa oculta pola técnica de Descomposición en Valores Singulares. (3)
O terceiro método é un novo clasificador uniclase baseado no convex hull para conxuntos de
datos distribuidos que reduce a dimensión dos datos do problema e, polo tanto, a complexidade,
utilizando proxeccións aleatorias. (4) Por último, preséntase unha versión incremental
do algoritmo de clasifición unicIase anterior. [Abstract]
Nowadays we are engulfed in a flood of data. Tbis faet has fundamentally changed the ways
that infonnation is shared, and has marle it clear that efficient methods fOI processing and
staring vast amounts oi data should be put forward. Computationallearning theory i5 the area
of artificial intelligence devoted to study algorithms aim at leaming froro data, building accurate
models based on observations. In this context, where data has grown faster than the speed
Di processors, the capabilities of traditional machine Iearning algorithms are limited by the
computational time rather than by the sample size. Besides, when dealing with large quantities
of data, learning algorithms can degenerate the:ir performance due to ayer-fitting and their
efficiency declines in accordance with size. Therefore, the scalability Di the learning algorithms
has turned froro a desirable property into a crucial one when very large datasets are envisioned,
There exists, basically, three intersecting approaches to ensure algorithms scalability as datasets
continue to grow in size and complexity: online learning, non-iterative learning and distributed
leaming, This thesis develops new efficient and scalable machine leaming methods following
the three previous approaches. Specifically, four new algorithms are developed, (1) The first
one perfonns onIine feature selection and classification at the sarue time, by the adaptation of a
c1assical fiIter method and the modification of an ooline leaming algorithm for one-Iayer neuraI
network, (2) The next one is a new fast and efficient one-c1ass c1assifier based 00 a non-iterative
cost function for autoassociative neural networks that perfonns dimensionality reduction io the
hidden layer by means of Singular VaIue Decomposition. (3) The third method is a new onec1ass
convex hull-based c1assifier fer distributed environments that reduces the dimeosionality
of the problem and hence the complexity by means of Random Projections, (4) FinaIly, an
onlioe version of the previous one-class classification algorithm is presented.
Keywords
Aprendizaje automático
Redes neuronales (Informática)
Algoritmos-Informática
Redes neuronales (Informática)
Algoritmos-Informática
Rights
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido