Clasificación jerárquica semántica aplicada a la detección de anomalías mediante logs de sistemas
Non accesible ata 2025-05-11
Use este enlace para citar
http://hdl.handle.net/2183/40241
A non ser que se indique outra cousa, a licenza do ítem descríbese como Atribución-NoComercial-CompartirIgual 4.0
Coleccións
- Teses de doutoramento [2184]
Metadatos
Mostrar o rexistro completo do ítemTítulo
Clasificación jerárquica semántica aplicada a la detección de anomalías mediante logs de sistemasAutor(es)
Director(es)
Carneiro, VíctorCarneiro, Víctor (Titor)
Data
2024Resumo
[Abstract]
The objective of this study focuses on the preprocessing of system logs to make
them more compact and structured, thus facilitating centralized processing that uses
machine learning techniques to detect anomalies. This thesis implements an algorithm
that creates and uses codes from system log themes to generate a log compendium
that maintains semantics, thus reducing processing in anomaly detection. Develops a
hierarchical classification of themes of natural language words and codes each theme
with hierarchical codes that represent the specificity of the theme in the hierarchy.
Creates an alphabetical catalog of words that may exist in the logs associated with
their hierarchical codes. This catalog is used to analyze and reduce the size of Hadoop
Distributed File System (HDFS) logs, obtaining reduced logs without repeated themes
and thus improving efficiency in automatic anomaly detection analysis. The log
compendium has been validated for anomaly detection using the “bert-base-uncased”
model and has been compared with LogCluster, SVM, LogRobust, DeepLog, PCA
and IM, obtaining much shorter processing times, but similar values in precision,
recall and F1-score metrics. [Resumen]
El objetivo de este estudio se centra en el preprocesamiento de logs de sistemas
para hacerlos más compactos y estructurados, facilitando de este modo el
procesamiento centralizado que utiliza técnicas de aprendizaje automático para
detectar anomalías. Esta tesis implementa un algoritmo que crea y utiliza códigos de
las temáticas de logs de sistemas para generar un compendio del log que mantiene la
semántica, reduciendo así el procesamiento en la detección de anomalías. Desarrolla
una clasificación jerárquica de temáticas de palabras del lenguaje natural y codifica
cada temática con códigos jerárquicos que representan la especificidad de la temática
en la jerarquía. Crea un catálogo alfabético de palabras que pueden existir en los logs
asociadas a sus códigos jerárquicos. Este catálogo es utilizado para analizar y reducir
el tamaño de logs del Hadoop Distributed File System (HDFS), obteniendo logs
reducidos sin temáticas repetidas y mejorando así la eficiencia en el análisis
automático de detección de anomalías. Se ha validado el log compendio para
detección de anomalías utilizando el modelo “bert-base-uncased” y se ha comparado
con LogCluster, SVM, LogRobust, DeepLog, PCA e IM, obteniendo tiempos de
procesamiento mucho menores, pero valores similares en las métricas precisión, recall
and F1-score. [Resumo]
O obxectivo deste estudo céntrase no preprocesamento de logs de sistemas para
facelos máis compactos e estruturados, facilitando así un procesamento centralizado
que utiliza técnicas de aprendizaxe automática para detectar anomalías. Esta tese
implementa un algoritmo que crea e utiliza códigos de temas de logs de sistemas para
xerar un compendio do log que manteña a semántica, reducindo así o procesamento
na detección de anomalías. Desenvolve unha clasificación xerárquica de temas de
palabras da linguaxe natural e codifica cada tema con códigos xerárquicos que
representan a especificidade do tema na xerarquía. Crea un catálogo alfabético de
palabras que poden existir nos logs asociadas aos seus códigos xerárquicos. Este
catálogo emprégase para analizar e reducir o tamaño dos logs do sistema de ficheiros
distribuídos de Hadoop (HDFS), obtendo rexistros reducidos sen temas repetidos e
mellorando así a eficiencia na análise automática de detección de anomalías. O
compendio de rexistros foi validado para a detección de anomalías mediante o modelo
"bert-base-uncased" e comparouse con LogCluster, SVM, LogRobust, DeepLog, PCA
e IM, obtendo tempos de procesamento moito máis curtos, pero valores similares nas
métricas precisión, recall e F1-score.
Palabras chave
Logs
Códigos
Codes
Clasificación
Classification
Jerárquica
Hierarchical
Semántica
Semantic
Sistemas
Systems
Anomalías
Anomaly
Ciberseguridad
Cybersecurity
Códigos
Codes
Clasificación
Classification
Jerárquica
Hierarchical
Semántica
Semantic
Sistemas
Systems
Anomalías
Anomaly
Ciberseguridad
Cybersecurity
Dereitos
Atribución-NoComercial-CompartirIgual 4.0