Uso de algoritmos de aprendizaje máquina para la clasificación de tráfico de red
Use este enlace para citar
http://hdl.handle.net/2183/27116
A non ser que se indique outra cousa, a licenza do ítem descríbese como Atribución-NoComercial-SinDerivadas 3.0 España
Coleccións
Metadatos
Mostrar o rexistro completo do ítemTítulo
Uso de algoritmos de aprendizaje máquina para la clasificación de tráfico de redAutor(es)
Director(es)
Fernández Iglesias, DiegoNóvoa Manuel, Francisco Javier
Data
2020-09Centro/Dpto/Entidade
Enxeñaría informática, Grao enDescrición
Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/2020Resumo
[Resumen] La cuarentena ocasionada por la pandemia mundial a causa del virus COVID-19 ha mostrado
el camino que está tomando la sociedad en la que vivimos, una sociedad donde la filosofía del
siempre conectado toma más fuerza que nunca. Muestra de esto ha sido el crecimiento del
teletrabajo, provocando el aumento del tráfico de red a unas velocidades vertiginosas, y con
ello el número de ataques y de nuevas amenazas en el mundo cibernético.
Ante este escenario surge la necesidad de mejorar y actualizar los planes de defensa. Para
poder analizar la gran cantidad de tráfico de red que se genera, aparece la estrategia de agregación
de flujos, permitiendo agrupar el tráfico en una serie de paquetes que comparten unos
valores concretos y así poder reducir la cantidad de datos a analizar mientras se conserva toda
la información necesaria para dicha tarea.
Aún así, esta agregación no consigue reducir lo suficiente las cantidades de datos, por lo
que es aquí donde entra en juego el Big Data, que con el uso de robustas herramientas de Machine
Learning junto con los sistemas distribuidos, permiten acometer la tarea de clasificación
de tráfico de red de forma sencilla, eficiente y escalable.
Este es el tema que aborda este proyecto, donde aplicamos minería de datos sobre un
conjunto de flujos de red para que mediante la selección de tres algoritmos de clasificación de
aprendizaje máquina poder crear tres modelos que son capaces de predecir si un flujo es tráfico
normal o de ataque. Para esto, seguimos las fases marcadas por la metodología CRISP-DM.
Finalmente, cada uno de estos modelos los desplegamos de forma distribuida para poder
ver la importancia que tienen los sistemas distribuidos para el análisis en tiempo real del
tráfico de una red. [Abstract] The quarantine caused by the global pandemic due to the COVID-19 virus has shown
the path that the society we live in is taking, a society where the philosophy of the always
connected is taking on more strength than ever. An example of this has been the growth of
teleworking, causing network traffic to increase at dizzying speeds, and with it the number
of attacks and new threats in the cyber world.
In view of this scenario, the need to improve and update defence plans arises. In order to
analyse the large amount of network traffic generated, a strategy of flow aggregation appears,
allowing traffic to be grouped into a series of packets that share specific values and thus
reducing the amount of data to be analysed while conserving all the information necessary
for this task.
Even so, this aggregation does not manage to reduce the amounts of data sufficiently,
so this is where Big Data comes into play. With the use of robust Machine Learning tools
together with distributed systems, this allows the task of classifying network traffic to be
undertaken in a simple, efficient and scalable manner.
This is the subject that we address per project, where we apply data mining on a set of
network flows so that by selecting three machine learning classification algorithms we can
create three models that are able to predict whether a flow is normal or attack traffic. For this,
we follow the phases marked by the CRISP-DM methodology.
Finally, each one of these models is deployed in a distributed way in order to see the
importance of distributed systems for the real-time analysis of network traffic.
Palabras chave
Flujo
Anomalía
Sistema distribuido
Clasificación
Regresión logística
Machine learning
Big Data
Flow
Anomaly
Distributed system
Classification
Cluster
Logistic regression
Random forest
Naive bayes
Anomalía
Sistema distribuido
Clasificación
Regresión logística
Machine learning
Big Data
Flow
Anomaly
Distributed system
Classification
Cluster
Logistic regression
Random forest
Naive bayes
Dereitos
Atribución-NoComercial-SinDerivadas 3.0 España