Automatic Rescaling and Tuning of Big Data Applications on Container-Based Virtual Environments
View/ Open
Use this link to cite
http://hdl.handle.net/2183/26610Collections
- Teses de doutoramento [2184]
Metadata
Show full item recordTitle
Automatic Rescaling and Tuning of Big Data Applications on Container-Based Virtual EnvironmentsAuthor(s)
Directors
Expósito, Roberto R.Touriño, Juan
Date
2020Abstract
[Resumo]
As aplicacións Big Data actuais evolucionaron dun xeito significativo, dende
fluxos de traballo baseados en procesamento por lotes ata outros máis complexos
que poden requirir múltiples etapas de procesamento usando diferentes tecnoloxías,
e mesmo executándose en tempo real. Doutra banda, para despregar estas aplicacións,
os clusters ‘commodity’ foron substituídos nalgúns casos por paradigmas máis
flexibles como o Cloud, ou mesmo por outros emerxentes como a computación ‘serverless’,
precisando ambos paradigmas de tecnoloxías de virtualización. Esta Tese
propón dúas contornas que proporcionan modos alternativos de realizar unha análise
en profundidade e unha mellor xestión dos recursos de aplicacións Big Data despregadas
en contornas virtuais baseadas en contedores software. Por unha banda, a
contorna BDWatchdog permite realizar unha análise de gran fino e en tempo real
en termos do uso dos recursos do sistema e do perfilado do código. Doutra banda,
descríbese unha contorna para o reescalado dinámico e en tempo real dos recursos
segundo un conxunto de políticas configurables. A primeira política proposta
céntrase no reescalado automático dos recursos dos contedores segundo o uso real
que as aplicacións fan dos mesmos, proporcionando así unha contorna ‘serverless’.
Ademais, preséntase unha política alternativa centrada na xestión enerxética que
permite implementar os conceptos de limitación e presuposto de potencia, que poden
aplicarse a contedores, aplicacións ou mesmo usuarios. En xeral, as contornas
propostas nesta Tese tratan de poñer de relevo o potencial de aplicar novos xeitos de
analizar e axustar os recursos das aplicacións Big Data despregadas en clusters de
contedores, mesmo en tempo real. Os casos de uso presentados son exemplos diso,
demostrando que as aplicacións Big Data poden adaptarse a novas tecnoloxías ou
paradigmas sen teren que cambiar as súas características máis intrínsecas. [Resumen]
Las aplicaciones Big Data actuales han evolucionado de forma significativa, desde
flujos de trabajo basados en procesamiento por lotes hasta otros más complejos que
pueden requerir múltiples etapas de procesamiento usando distintas tecnologías, e incluso
ejecutándose en tiempo real. Por otra parte, para desplegar estas aplicaciones,
los clusters ‘commodity’ se han reemplazado en algunos casos por paradigmas más
flexibles como el Cloud, o incluso por otros emergentes como la computación ‘serverless’,
requiriendo ambos paradigmas de tecnologías de virtualización. Esta Tesis
propone dos entornos que proporcionan formas alternativas de realizar un análisis en
profundidad y una mejor gestión de los recursos de aplicaciones Big Data desplegadas
en entornos virtuales basados en contenedores software. Por un lado, el entorno
BDWatchdog permite realizar un análisis de grano fino y en tiempo real en lo que
respecta a la monitorización de los recursos del sistema y al perfilado del código. Por
otro lado, se describe un entorno para el reescalado dinámico y en tiempo real de
los recursos de acuerdo a un conjunto de políticas configurables. La primera política
propuesta se centra en el reescalado automático de los recursos de los contenedores
de acuerdo al uso real que las aplicaciones hacen de los mismos, proporcionando así
un entorno ‘serverless’. Además, se presenta una política alternativa centrada en la
gestión energética que permite implementar los conceptos de limitación y presupuesto
de potencia, pudiendo aplicarse a contenedores, aplicaciones o incluso usuarios.
En general, los entornos propuestos en esta Tesis tratan de resaltar el potencial de
aplicar nuevas formas de analizar y ajustar los recursos de las aplicaciones Big Data
desplegadas en clusters de contenedores, incluso en tiempo real. Los casos de uso
que se han presentado son ejemplos de esto, demostrando que las aplicaciones Big
Data pueden adaptarse a nuevas tecnologías o paradigmas sin tener que cambiar su
características más intrínsecas. [Abstract]
Current Big Data applications have significantly evolved from its origins, moving
from mostly batch workloads to more complex ones that may involve many processing
stages using different technologies or even working in real time. Moreover, to
deploy these applications, commodity clusters have been in some cases replaced
in favor of newer and more flexible paradigms such as the Cloud or even emerging
ones such as serverless computing, usually involving virtualization techniques.
This Thesis proposes two frameworks that provide alternative ways to perform indepth
analysis and improved resource management for Big Data applications deployed
on virtual environments based on software containers. On the one hand,
the BDWatchdog framework is capable of performing real-time, fine-grain analysis
in terms of system resource monitoring and code profiling. On the other hand, a
framework for the dynamic and real-time scaling of resources according to several
tuning policies is described. The first proposed policy revolves around the automatic
scaling of the containers’ resources according to the real usage of the applications,
thus providing a serverless environment. Furthermore, an alternative policy focused
on energy management is presented in a scenario where power capping and budgeting
functionalities are implemented for containers, applications or even users.
Overall, the frameworks proposed in this Thesis aim to showcase how novel ways
of analyzing and tuning the resources given to Big Data applications in container
clusters are possible, even in real time. The supported use cases that were presented
are examples of this, and show how Big Data applications can be adapted to newer
technologies or paradigms without having to lose their distinctive characteristics.
Keywords
Sistemas virtuales (Informática)
Redes de ordenadores-Seguridad-Medidas
Big Data
Redes de ordenadores-Seguridad-Medidas
Big Data
Rights
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido