Análise de Rendemento en Plataformas Data Lakehouse: Snowflake e Databricks

UDC.coleccionTraballos académicoses_ES
UDC.tipotrabTFMes_ES
UDC.titulacionMáster Universitario en Enxeñaría Informáticaes_ES
dc.contributor.advisorTaboada, Guillermo L.
dc.contributor.authorCorujo Muíña, Manuel
dc.contributor.otherUniversidade da Coruña. Facultade de Informáticaes_ES
dc.date.accessioned2024-07-18T09:52:11Z
dc.date.available2024-07-18T09:52:11Z
dc.date.issued2024-06
dc.description.abstract[Resumo]: Este traballo compara o rendemento de dúas das plataformas Data Lakehouse máis populares na actualidade: Snowflake e Databricks, mediante a execución de benchmarks de referencia no seu ámbito, como é o caso de TPC-DS. A análise dos resultados permitiu coñecer en profundidade as distintas configuracións e optimizacións que permiten ambas plataformas. As principais recomendacións e conclusións subliñan a importancia de non sobredimensionar os recursos de cómputo, senón adaptalos ao tamaño dos datos cos que traballar para lograr unha eficiencia óptima. Ademais, tamén se descubriu que o uso de AWS como provedor de cloud para Snowflake pode mellorar o seu rendemento respecto a Azure e GCP. Por último, para aqueles escenarios que implican a carga frecuente de grandes volumes de datos, Databricks demostrou ser máis eficaz.es_ES
dc.description.abstract[Abstract]: This work compares the performance of two of the most popular Data Lakehouse platforms at the moment: Snowflake and Databricks, by running reference benchmarks in their field, such as TPC-DS. The analysis of the results provided in-depth knowledge of the different configurations and optimizations available on both platforms. Key recommendations and conclusions include the importance of not oversizing computational resources but rather tailoring them to match the data workload for optimal efficiency. Additionally, it was found that using AWS as the cloud provider for Snowflake can enhance performance. Lastly, for scenarios involving frequent loading of large datasets, Databricks proved to be more effective.es_ES
dc.description.traballosTraballo fin de mestrado (UDC.FIC). Enxeñaría Informática. Curso 2023/2024es_ES
dc.identifier.urihttp://hdl.handle.net/2183/38135
dc.language.isoglges_ES
dc.rightsAtribución 3.0 Españaes_ES
dc.rights.accessRightsopen accesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/es/*
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/es/
dc.subjectBenchmarkinges_ES
dc.subjectData Lakees_ES
dc.subjectData Lakehousees_ES
dc.subjectData Warehousees_ES
dc.subjectDatabrickses_ES
dc.subjectSnowflakees_ES
dc.titleAnálise de Rendemento en Plataformas Data Lakehouse: Snowflake e Databrickses_ES
dc.typemaster thesis
dspace.entity.typePublication

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
CorujoMuína_Manuel_TFM_2024.pdf
Size:
1.87 MB
Format:
Adobe Portable Document Format
Description: