Show simple item record

dc.contributor.advisorCarneiro, Víctor
dc.contributor.advisorCarneiro, Víctor (Titor)
dc.contributor.authorSuárez, Clara
dc.date.accessioned2024-11-21T17:58:16Z
dc.date.issued2024
dc.identifier.urihttp://hdl.handle.net/2183/40241
dc.description.abstract[Abstract] The objective of this study focuses on the preprocessing of system logs to make them more compact and structured, thus facilitating centralized processing that uses machine learning techniques to detect anomalies. This thesis implements an algorithm that creates and uses codes from system log themes to generate a log compendium that maintains semantics, thus reducing processing in anomaly detection. Develops a hierarchical classification of themes of natural language words and codes each theme with hierarchical codes that represent the specificity of the theme in the hierarchy. Creates an alphabetical catalog of words that may exist in the logs associated with their hierarchical codes. This catalog is used to analyze and reduce the size of Hadoop Distributed File System (HDFS) logs, obtaining reduced logs without repeated themes and thus improving efficiency in automatic anomaly detection analysis. The log compendium has been validated for anomaly detection using the “bert-base-uncased” model and has been compared with LogCluster, SVM, LogRobust, DeepLog, PCA and IM, obtaining much shorter processing times, but similar values in precision, recall and F1-score metrics.es_ES
dc.description.abstract[Resumen] El objetivo de este estudio se centra en el preprocesamiento de logs de sistemas para hacerlos más compactos y estructurados, facilitando de este modo el procesamiento centralizado que utiliza técnicas de aprendizaje automático para detectar anomalías. Esta tesis implementa un algoritmo que crea y utiliza códigos de las temáticas de logs de sistemas para generar un compendio del log que mantiene la semántica, reduciendo así el procesamiento en la detección de anomalías. Desarrolla una clasificación jerárquica de temáticas de palabras del lenguaje natural y codifica cada temática con códigos jerárquicos que representan la especificidad de la temática en la jerarquía. Crea un catálogo alfabético de palabras que pueden existir en los logs asociadas a sus códigos jerárquicos. Este catálogo es utilizado para analizar y reducir el tamaño de logs del Hadoop Distributed File System (HDFS), obteniendo logs reducidos sin temáticas repetidas y mejorando así la eficiencia en el análisis automático de detección de anomalías. Se ha validado el log compendio para detección de anomalías utilizando el modelo “bert-base-uncased” y se ha comparado con LogCluster, SVM, LogRobust, DeepLog, PCA e IM, obteniendo tiempos de procesamiento mucho menores, pero valores similares en las métricas precisión, recall and F1-score.es_ES
dc.description.abstract[Resumo] O obxectivo deste estudo céntrase no preprocesamento de logs de sistemas para facelos máis compactos e estruturados, facilitando así un procesamento centralizado que utiliza técnicas de aprendizaxe automática para detectar anomalías. Esta tese implementa un algoritmo que crea e utiliza códigos de temas de logs de sistemas para xerar un compendio do log que manteña a semántica, reducindo así o procesamento na detección de anomalías. Desenvolve unha clasificación xerárquica de temas de palabras da linguaxe natural e codifica cada tema con códigos xerárquicos que representan a especificidade do tema na xerarquía. Crea un catálogo alfabético de palabras que poden existir nos logs asociadas aos seus códigos xerárquicos. Este catálogo emprégase para analizar e reducir o tamaño dos logs do sistema de ficheiros distribuídos de Hadoop (HDFS), obtendo rexistros reducidos sen temas repetidos e mellorando así a eficiencia na análise automática de detección de anomalías. O compendio de rexistros foi validado para a detección de anomalías mediante o modelo "bert-base-uncased" e comparouse con LogCluster, SVM, LogRobust, DeepLog, PCA e IM, obtendo tempos de procesamento moito máis curtos, pero valores similares nas métricas precisión, recall e F1-score.es_ES
dc.language.isospaes_ES
dc.rightsAtribución-NoComercial-CompartirIgual 4.0es_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/*
dc.subjectLogses_ES
dc.subjectCódigoses_ES
dc.subjectCodeses_ES
dc.subjectClasificaciónes_ES
dc.subjectClassificationes_ES
dc.subjectJerárquicaes_ES
dc.subjectHierarchicales_ES
dc.subjectSemánticaes_ES
dc.subjectSemantices_ES
dc.subjectSistemases_ES
dc.subjectSystemses_ES
dc.subjectAnomalíases_ES
dc.subjectAnomalyes_ES
dc.subjectCiberseguridades_ES
dc.subjectCybersecurityes_ES
dc.titleClasificación jerárquica semántica aplicada a la detección de anomalías mediante logs de sistemases_ES
dc.typeinfo:eu-repo/semantics/doctoralThesises_ES
dc.rights.accessinfo:eu-repo/semantics/embargoedAccesses_ES
dc.date.embargoEndDate2025-05-11es_ES
dc.date.embargoLift2025-05-11
UDC.coleccionTeses
UDC.titulacionPrograma Oficial de Doutoramento en Tecnoloxías da Información e as Comunicacións


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record