Novel methods in distributed machine learning for large datasets

Peteiro Barral, Diego

Title

Author(s)

Peteiro Barral, Diego

Directors

Guijarro-Berdiñas, Bertha
Fontenla-Romero, Óscar

Date

2015

Center/Dept./Entity

Universidade da Coruña.Departamento de Computación

Abstract

[Resumen] La cantidad de datos almacenados actualmente está creciendo a un ritmo sin precedentes. Con la variedad, velocidad y volumen de datos transmitiéndose a través de redes de comunicación y bases de datos, encontrar patrones relevantes en estos datos que conduzcan a conclusiones significativas se ha convertido en un reto. En este contexto, el aprendizaje automático se ha convertido en una pieza fundamental para extraer el mayor valor posible de estos conjuntos de datos tan grandes y diversos. El aprendizaje automáatico permite analizar cientos de variables simultáneamente, así como la interacción entre ellas, y es muy adecuado para problemas complejos. Sin embargo, la mayoría de algoritmos de aprendizaje fueron dise~nados con la suposición de que los datos estarían representados en la memoria principal de un computador en formato de tabla pero, con el volumen de datos actual, estas estructuras son demasiado grandes para ser almacenadas como una única tabla en memoria principal. Así, la computación distribuida se ha convertido en un paradigma esencial para enfrentar las restricciones actuales en términos de velocidad y almacenamiento. En esta tesis, nos centramos en métodos que son adecuados para trabajar con grandes volumenes de datos y que tienen el potencial de ser implementados de forma distribuida. Nuestra contribución tiene dos vertientes; en primer lugar, se implementan métodos para mejorar la escalabilidad de algoritmos de aprendizaje automático y, en segundo lugar, se desarrollan métodos de aprendizaje que muestran sesgos en las distribuciones de los datos.

[Abstract] Data is growing at an unprecedented pace. With the variety, speed and volume of data owing through networks and databases, it has become more and more difficult to find patterns that lead to meaningful conclusions. At the same time, organizations need to find ways to make sense of all of this data. Unlocking the most value from large, varied sets of information requires a newer approach based on machine-learning. Machine learning allows a system to analyze hundreds of variables simultaneously, along with how they interconnect and it is well-suited to complex problems. However, the majority of machine learning algorithms were designed under the assumption that the data would be represented as a single memory-resident table. For large volumes of data these structures will certainly not fit in system memory. Thus, distributed computing have become essential, due to both speed and memory constraints. In this thesis, we concentrate on methods that are suitable for very large data and that have the potential for distributed implementation. Our contributions are two-fold. First, we implement methods for improving the scalability of training algorithms. Second, we develop training methods under the effect of skewed data distributions.

[Resumo] A cantidade de datos almacenados actualmente está crecendo a un ritmo sen precedentes. Coa variedade, velocidade e volume de datos transmitiéndose a través de redes de comunicación e bases de datos, atopar patróns relevantes nestes datos que conduzan a conclusións significativas converteuse nun reto. Neste contexto, a aprendizaxe automáatica converteuse nunha peza fundamental para extraer o maior valor posible destes conxuntos de datos tan grandes e diversos. A aprendizaxe automática permite analizar centos de variables simultáneamente, así como a interacci on entre elas, e é moi adecuado para problemas complexos. Con todo, a maioría de algoritmos de aprendizaxe foron dese~nados coa suposición de que os datos estarían representados na memoria principal dun computador en formato de táboa pero, co volume de datos actual, estas estruturas son demasiado grandes para ser almacenadas como unha única táboa en memoria principal. Así, a computacin distribuída converteuse nun paradigma esencial para enfrontar as restricciones actuais en términos de velocidade e almacenamiento. Nesta tese, centrámonos en métodos que son adecuados para traballar con grandes volumenes de datos e que te~nen o potencial de ser implementados de forma distribuída. A nosa contribución ten dúas vertentes; en primeiro lugar, impleméntanse métodos para mellorar a escalabilidade de algoritmos de aprendizaxe automática e, en segundo lugar, desenvólvense métodos de aprendizaxe que mostran sesgos nas distribucións dos datos.

Keywords

Aprendizaje automático
Tratamiento repartido
Sistemas informáticos distribuídos

Rights

Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido