Uso de algoritmos de aprendizaje máquina para la clasificación de tráfico de red

Varela Álvarez, Christian Manuel

Ver/abrir

C.M.Varela_Álvarez_2020_Uso_de_algoritmos_de_aprendizaje_máquina.pdf (4.604Mb)

Use este enlace para citar

http://hdl.handle.net/2183/27116

A non ser que se indique outra cousa, a licenza do ítem descríbese como Atribución-NoComercial-SinDerivadas 3.0 España

Coleccións

Enxeñaría informática, Grao en [452]

Metadatos

Mostrar o rexistro completo do ítem

Título

Uso de algoritmos de aprendizaje máquina para la clasificación de tráfico de red

Autor(es)

Varela Álvarez, Christian Manuel

Director(es)

Fernández Iglesias, Diego
Nóvoa Manuel, Francisco Javier

Data

2020-09

Centro/Dpto/Entidade

Enxeñaría informática, Grao en

Descrición

Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/2020

Resumo

[Resumen] La cuarentena ocasionada por la pandemia mundial a causa del virus COVID-19 ha mostrado el camino que está tomando la sociedad en la que vivimos, una sociedad donde la filosofía del siempre conectado toma más fuerza que nunca. Muestra de esto ha sido el crecimiento del teletrabajo, provocando el aumento del tráfico de red a unas velocidades vertiginosas, y con ello el número de ataques y de nuevas amenazas en el mundo cibernético. Ante este escenario surge la necesidad de mejorar y actualizar los planes de defensa. Para poder analizar la gran cantidad de tráfico de red que se genera, aparece la estrategia de agregación de flujos, permitiendo agrupar el tráfico en una serie de paquetes que comparten unos valores concretos y así poder reducir la cantidad de datos a analizar mientras se conserva toda la información necesaria para dicha tarea. Aún así, esta agregación no consigue reducir lo suficiente las cantidades de datos, por lo que es aquí donde entra en juego el Big Data, que con el uso de robustas herramientas de Machine Learning junto con los sistemas distribuidos, permiten acometer la tarea de clasificación de tráfico de red de forma sencilla, eficiente y escalable. Este es el tema que aborda este proyecto, donde aplicamos minería de datos sobre un conjunto de flujos de red para que mediante la selección de tres algoritmos de clasificación de aprendizaje máquina poder crear tres modelos que son capaces de predecir si un flujo es tráfico normal o de ataque. Para esto, seguimos las fases marcadas por la metodología CRISP-DM. Finalmente, cada uno de estos modelos los desplegamos de forma distribuida para poder ver la importancia que tienen los sistemas distribuidos para el análisis en tiempo real del tráfico de una red.

[Abstract] The quarantine caused by the global pandemic due to the COVID-19 virus has shown the path that the society we live in is taking, a society where the philosophy of the always connected is taking on more strength than ever. An example of this has been the growth of teleworking, causing network traffic to increase at dizzying speeds, and with it the number of attacks and new threats in the cyber world. In view of this scenario, the need to improve and update defence plans arises. In order to analyse the large amount of network traffic generated, a strategy of flow aggregation appears, allowing traffic to be grouped into a series of packets that share specific values and thus reducing the amount of data to be analysed while conserving all the information necessary for this task. Even so, this aggregation does not manage to reduce the amounts of data sufficiently, so this is where Big Data comes into play. With the use of robust Machine Learning tools together with distributed systems, this allows the task of classifying network traffic to be undertaken in a simple, efficient and scalable manner. This is the subject that we address per project, where we apply data mining on a set of network flows so that by selecting three machine learning classification algorithms we can create three models that are able to predict whether a flow is normal or attack traffic. For this, we follow the phases marked by the CRISP-DM methodology. Finally, each one of these models is deployed in a distributed way in order to see the importance of distributed systems for the real-time analysis of network traffic.

Palabras chave

Flujo
Anomalía
Sistema distribuido
Clasificación
Regresión logística
Machine learning
Big Data
Flow
Anomaly
Distributed system
Classification
Cluster
Logistic regression
Random forest
Naive bayes

Dereitos

Atribución-NoComercial-SinDerivadas 3.0 España