Ferramenta para automatización de traballos por lotes con Apache Spark

Rodríguez Couto, Adrián

dc.contributor.advisor	Pardo, Xoán C.
dc.contributor.author	Rodríguez Couto, Adrián
dc.contributor.other	Enxeñaría informática, Grao en	es_ES
dc.date.accessioned	2022-07-28T17:22:02Z
dc.date.available	2022-07-28T17:22:02Z
dc.date.issued	2022
dc.identifier.uri	http://hdl.handle.net/2183/31239
dc.description.abstract	[Resumo] O uso do Big Data, termo que fai referencia á recollida e interpretación de cantidades masivas de datos, está en pleno auxe nos tempos que corren, xa que usando as diferentes tecnoloxías que este término engloba poden chegar a conseguirse beneficios moi claros, axudando aos seus usuarios a sacar conclusións cunha base moito máis sólida e orientarse a decisións efectivas. Dentro deste ámbito do Big Data, entre outras moitas ferramentas, atopámonos co framework open-source de computación paralela Apache Spark, e para facer uso deste co obxectivo de executar traballos por lotes (batch jobs), hai que dispor dun cluster con Spark instalado e enviar os traballos a dito cluster mediante un comando ”spark-submit” ou usando unha interface REST. O proceso de instalación, configuración e uso dun cluster Spark non é sinxelo para usuarios non experimentados debido á cantidade de configuracións que permite e ó elevado número de opcións do comando spark-submit usado para o envío de traballos. Enfocándonos neste último aspecto, o obxectivo deste traballo de fin de grao é elaborar unha ferramenta que poida automatizar e facilitar todo este proceso de execución de traballos por lotes en Apache Spark, permitindo levantar un cluster Spark baixo demanda de forma automatizada, enviar os traballos por lotes que se desexen realizar ao cluster recuperando os logs de execución para a súa interpretación dunha forma sinxela con tal de facilitarlle o uso a usuarios básicos, e por último eliminar o cluster creado. O cógido fonte da ferramenta desenvolta neste traballo pode atoparse no repositorio git desta ligazón: https://github.com/ADR2211/easySpark	es_ES
dc.description.abstract	[Abstract] The term Big Data refers to the collection and interpretation of extremely large data sets and it’s one of the most currently demanded niches in the development and supplement of enterprise software, provoked by the rapid and constant growth of the volumes of information. Big Data technologies provide very clear benefits, assisting users to draw solid conclusions and make effective decisions. One of the most popular open-source Big Data frameworks for large-scale data analytics is Apache Spark. To run batch jobs on this framework a working Spark cluster is necessary and those jobs are launched using the spark-submit command or using a REST API. Setting up an Apache Spark cluster and use it is not easy for novice users due to the variety of configurations it allows and the multiple options that the spark-submit command supports. The objective of this Degree Thesis is to develop a tool that automates and facilitates the execution of batch jobs on Spark clusters, providing users with options to deploy and delete a Spark cluster, and allowing inexperienced users to execute batch jobs in a simpler way. The source code of the tool is available at the following git repository: https:// github.com/ADR2211/easySpark	es_ES
dc.language.iso	glg	es_ES
dc.rights	Atribución-NoComercial-SinDerivadas 3.0 España	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	*
dc.subject	Apache Spark	es_ES
dc.subject	Ferramenta de liña de comandos	es_ES
dc.subject	Kubernetes	es_ES
dc.subject	Cluster	es_ES
dc.subject	Vagrant	es_ES
dc.subject	Automatización	es_ES
dc.subject	Python	es_ES
dc.subject	Traballos por lotes	es_ES
dc.title	Ferramenta para automatización de traballos por lotes con Apache Spark	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.access	info:eu-repo/semantics/openAccess	es_ES
dc.description.traballos	Traballo fin de grao. Enxeñaría Informática. Curso 2021/2022	es_ES

Files in this item

Name:: license_rdf
Size:: 1.203Kb
Format:: application/rdf+xml

View/Open

Name:: RodriguezCouto_Adrian_TFG_2022.pdf
Size:: 2.978Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Enxeñaría informática, Grao en [447]

Show simple item record