Novel methods in distributed machine learning for large datasets
Use this link to cite
http://hdl.handle.net/2183/15673Collections
- Teses de doutoramento [2162]
Metadata
Show full item recordTitle
Novel methods in distributed machine learning for large datasetsAuthor(s)
Directors
Guijarro-Berdiñas, BerthaFontenla-Romero, Óscar
Date
2015Center/Dept./Entity
Universidade da Coruña.Departamento de ComputaciónAbstract
[Resumen]
La cantidad de datos almacenados actualmente está creciendo a un ritmo sin
precedentes. Con la variedad, velocidad y volumen de datos transmitiéndose
a través de redes de comunicación y bases de datos, encontrar patrones relevantes
en estos datos que conduzcan a conclusiones significativas se ha convertido
en un reto. En este contexto, el aprendizaje automático se ha convertido
en una pieza fundamental para extraer el mayor valor posible de estos conjuntos
de datos tan grandes y diversos. El aprendizaje automáatico permite
analizar cientos de variables simultáneamente, así como la interacción entre
ellas, y es muy adecuado para problemas complejos. Sin embargo, la mayoría
de algoritmos de aprendizaje fueron dise~nados con la suposición de que los
datos estarían representados en la memoria principal de un computador en
formato de tabla pero, con el volumen de datos actual, estas estructuras son
demasiado grandes para ser almacenadas como una única tabla en memoria
principal. Así, la computación distribuida se ha convertido en un paradigma
esencial para enfrentar las restricciones actuales en términos de velocidad y
almacenamiento. En esta tesis, nos centramos en métodos que son adecuados
para trabajar con grandes volumenes de datos y que tienen el potencial
de ser implementados de forma distribuida. Nuestra contribución tiene dos
vertientes; en primer lugar, se implementan métodos para mejorar la escalabilidad
de algoritmos de aprendizaje automático y, en segundo lugar, se
desarrollan métodos de aprendizaje que muestran sesgos en las distribuciones
de los datos. [Abstract]
Data is growing at an unprecedented pace. With the variety, speed and volume
of data
owing through networks and databases, it has become more and
more difficult to find patterns that lead to meaningful conclusions. At the
same time, organizations need to find ways to make sense of all of this data.
Unlocking the most value from large, varied sets of information requires a
newer approach based on machine-learning. Machine learning allows a system
to analyze hundreds of variables simultaneously, along with how they
interconnect and it is well-suited to complex problems. However, the majority
of machine learning algorithms were designed under the assumption
that the data would be represented as a single memory-resident table. For
large volumes of data these structures will certainly not fit in system memory.
Thus, distributed computing have become essential, due to both speed
and memory constraints. In this thesis, we concentrate on methods that are
suitable for very large data and that have the potential for distributed implementation.
Our contributions are two-fold. First, we implement methods for
improving the scalability of training algorithms. Second, we develop training
methods under the effect of skewed data distributions. [Resumo]
A cantidade de datos almacenados actualmente está crecendo a un ritmo sen
precedentes. Coa variedade, velocidade e volume de datos transmitiéndose a
través de redes de comunicación e bases de datos, atopar patróns relevantes
nestes datos que conduzan a conclusións significativas converteuse nun reto.
Neste contexto, a aprendizaxe automáatica converteuse nunha peza fundamental
para extraer o maior valor posible destes conxuntos de datos tan grandes
e diversos. A aprendizaxe automática permite analizar centos de variables
simultáneamente, así como a interacci on entre elas, e é moi adecuado para
problemas complexos. Con todo, a maioría de algoritmos de aprendizaxe
foron dese~nados coa suposición de que os datos estarían representados na
memoria principal dun computador en formato de táboa pero, co volume de
datos actual, estas estruturas son demasiado grandes para ser almacenadas
como unha única táboa en memoria principal. Así, a computacin distribuída
converteuse nun paradigma esencial para enfrontar as restricciones actuais
en términos de velocidade e almacenamiento. Nesta tese, centrámonos en
métodos que son adecuados para traballar con grandes volumenes de datos
e que te~nen o potencial de ser implementados de forma distribuída. A nosa
contribución ten dúas vertentes; en primeiro lugar, impleméntanse métodos
para mellorar a escalabilidade de algoritmos de aprendizaxe automática e,
en segundo lugar, desenvólvense métodos de aprendizaxe que mostran sesgos
nas distribucións dos datos.
Keywords
Aprendizaje automático
Tratamiento repartido
Sistemas informáticos distribuídos
Tratamiento repartido
Sistemas informáticos distribuídos
Rights
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido