Ferramenta para automatización de traballos por lotes con Apache Spark

Use este enlace para citar
http://hdl.handle.net/2183/31239
A non ser que se indique outra cousa, a licenza do ítem descríbese como Atribución-NoComercial-SinDerivadas 3.0 España
Coleccións
Metadatos
Mostrar o rexistro completo do ítemTítulo
Ferramenta para automatización de traballos por lotes con Apache SparkAutor(es)
Director(es)
Pardo, Xoán C.Data
2022Centro/Dpto/Entidade
Enxeñaría informática, Grao enDescrición
Traballo fin de grao. Enxeñaría Informática. Curso 2021/2022Resumo
[Resumo] O uso do Big Data, termo que fai referencia á recollida e interpretación de cantidades masivas
de datos, está en pleno auxe nos tempos que corren, xa que usando as diferentes tecnoloxías
que este término engloba poden chegar a conseguirse beneficios moi claros, axudando
aos seus usuarios a sacar conclusións cunha base moito máis sólida e orientarse a decisións
efectivas. Dentro deste ámbito do Big Data, entre outras moitas ferramentas, atopámonos
co framework open-source de computación paralela Apache Spark, e para facer uso deste co
obxectivo de executar traballos por lotes (batch jobs), hai que dispor dun cluster con Spark
instalado e enviar os traballos a dito cluster mediante un comando ”spark-submit” ou usando
unha interface REST.
O proceso de instalación, configuración e uso dun cluster Spark non é sinxelo para usuarios
non experimentados debido á cantidade de configuracións que permite e ó elevado número
de opcións do comando spark-submit usado para o envío de traballos. Enfocándonos
neste último aspecto, o obxectivo deste traballo de fin de grao é elaborar unha ferramenta que
poida automatizar e facilitar todo este proceso de execución de traballos por lotes en Apache
Spark, permitindo levantar un cluster Spark baixo demanda de forma automatizada, enviar os
traballos por lotes que se desexen realizar ao cluster recuperando os logs de execución para a
súa interpretación dunha forma sinxela con tal de facilitarlle o uso a usuarios básicos, e por
último eliminar o cluster creado.
O cógido fonte da ferramenta desenvolta neste traballo pode atoparse no repositorio git desta
ligazón: https://github.com/ADR2211/easySpark [Abstract] The term Big Data refers to the collection and interpretation of extremely large data sets
and it’s one of the most currently demanded niches in the development and supplement of enterprise
software, provoked by the rapid and constant growth of the volumes of information.
Big Data technologies provide very clear benefits, assisting users to draw solid conclusions
and make effective decisions.
One of the most popular open-source Big Data frameworks for large-scale data analytics
is Apache Spark. To run batch jobs on this framework a working Spark cluster is necessary
and those jobs are launched using the spark-submit command or using a REST API. Setting
up an Apache Spark cluster and use it is not easy for novice users due to the variety of configurations
it allows and the multiple options that the spark-submit command supports.
The objective of this Degree Thesis is to develop a tool that automates and facilitates the
execution of batch jobs on Spark clusters, providing users with options to deploy and delete
a Spark cluster, and allowing inexperienced users to execute batch jobs in a simpler way.
The source code of the tool is available at the following git repository: https://
github.com/ADR2211/easySpark
Palabras chave
Apache Spark
Ferramenta de liña de comandos
Kubernetes
Cluster
Vagrant
Automatización
Python
Traballos por lotes
Ferramenta de liña de comandos
Kubernetes
Cluster
Vagrant
Automatización
Python
Traballos por lotes
Dereitos
Atribución-NoComercial-SinDerivadas 3.0 España