Skip navigation
  •  Inicio
  • UDC 
    • Cómo depositar
    • Políticas del RUC
    • FAQ
    • Derechos de autor
    • Más información en INFOguías UDC
  • Listar 
    • Comunidades
    • Buscar por:
    • Fecha de publicación
    • Autor
    • Título
    • Materia
  • Ayuda
    • español
    • Gallegan
    • English
  • Acceder
  •  Español 
    • Español
    • Galego
    • English
  
Ver ítem 
  •   RUC
  • Facultade de Informática
  • Traballos académicos (FIC)
  • Ver ítem
  •   RUC
  • Facultade de Informática
  • Traballos académicos (FIC)
  • Ver ítem
JavaScript is disabled for your browser. Some features of this site may not work without it.

Análise de Rendemento en Plataformas Data Lakehouse: Snowflake e Databricks

Thumbnail
Ver/Abrir
CorujoMuína_Manuel_TFM_2024.pdf (1.874Mb)
Use este enlace para citar
http://hdl.handle.net/2183/38135
Atribución 3.0 España
Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución 3.0 España
Colecciones
  • Traballos académicos (FIC) [715]
Metadatos
Mostrar el registro completo del ítem
Título
Análise de Rendemento en Plataformas Data Lakehouse: Snowflake e Databricks
Autor(es)
Corujo Muíña, Manuel
Directores
López Taboada, Guillermo
Fecha
2024-06
Centro/Dpto/Entidad
Universidade da Coruña. Facultade de Informática
Descripción
Traballo fin de mestrado (UDC.FIC). Enxeñaría Informática. Curso 2023/2024
Resumen
[Resumo]: Este traballo compara o rendemento de dúas das plataformas Data Lakehouse máis populares na actualidade: Snowflake e Databricks, mediante a execución de benchmarks de referencia no seu ámbito, como é o caso de TPC-DS. A análise dos resultados permitiu coñecer en profundidade as distintas configuracións e optimizacións que permiten ambas plataformas. As principais recomendacións e conclusións subliñan a importancia de non sobredimensionar os recursos de cómputo, senón adaptalos ao tamaño dos datos cos que traballar para lograr unha eficiencia óptima. Ademais, tamén se descubriu que o uso de AWS como provedor de cloud para Snowflake pode mellorar o seu rendemento respecto a Azure e GCP. Por último, para aqueles escenarios que implican a carga frecuente de grandes volumes de datos, Databricks demostrou ser máis eficaz.
 
[Abstract]: This work compares the performance of two of the most popular Data Lakehouse platforms at the moment: Snowflake and Databricks, by running reference benchmarks in their field, such as TPC-DS. The analysis of the results provided in-depth knowledge of the different configurations and optimizations available on both platforms. Key recommendations and conclusions include the importance of not oversizing computational resources but rather tailoring them to match the data workload for optimal efficiency. Additionally, it was found that using AWS as the cloud provider for Snowflake can enhance performance. Lastly, for scenarios involving frequent loading of large datasets, Databricks proved to be more effective.
 
Palabras clave
Benchmarking
Data Lake
Data Lakehouse
Data Warehouse
Databricks
Snowflake
 
Derechos
Atribución 3.0 España

Listar

Todo RUCComunidades & ColeccionesPor fecha de publicaciónAutoresTítulosMateriasGrupo de InvestigaciónTitulaciónEsta colecciónPor fecha de publicaciónAutoresTítulosMateriasGrupo de InvestigaciónTitulación

Mi cuenta

AccederRegistro

Estadísticas

Ver Estadísticas de uso
Sherpa
OpenArchives
OAIster
Scholar Google
UNIVERSIDADE DA CORUÑA. Servizo de Biblioteca.    DSpace Software Copyright © 2002-2013 Duraspace - Sugerencias